5 часов назад

Site Reliability Engineer (AI)

6 000 - 8 000$

Формат работы

remote/onsite

Тип работы

fulltime

Грейд

senior

Английский

Страна

UAE

Релокация

UAE

Вакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Ищу SRE себе в команду.

Формат: удаленно(2 месяца испытательного) обязателен релок после 2 месяцев в Абу Даби
Занятость: full-time
Локация: Абу Даби
Вилка: 6.000$ remote, 8.000$ onsite
Компания: Aleria LLC
Контакт:

Site Reliability Engineer
Aleria — компания из Абу-Даби, разрабатывающая AI-продукты для клиентов в ОАЭ и по всему миру. Небольшая команда, быстрый рост. Работаем на bare metal, без облака. Нужен инженер, который понимает каждый слой — от NIC до Kubernetes pod — и отвечает за то, чтобы всё это работало стабильно под нагрузкой и не падало посреди ночи.
Чем предстоит заниматься:
Обеспечивать надёжность и доступность сервисов на bare metal с Kubernetes поверх железа
Строить и поддерживать observability (Prometheus, Grafana, Loki): метрики, дашборды, алерты, SLO/SLI
Реагировать на инциденты, проводить post-mortem и устранять причины, а не симптомы
Тюнить PostgreSQL и другие БД под продакшен-нагрузку, искать боттлнеки
Поддерживать CI/CD (GHES, ArgoCD), снижать время и риск деплоев
Сетевая инфраструктура: маршрутизация, сегментация, балансировка нагрузки, безопасность
On-premise и air-gapped поставки (~10%)
Capacity planning и работа над снижением toil
Безопасность, которая не тормозит команду
Взаимодействие с командой разработки и инженерами клиентов
Требования:
Глубокий опыт bare metal — без облачных абстракций
Понимание внутреннего устройства Kubernetes, а не только манифестов
Опыт устранения продакшен-инцидентов под давлением, умение быстро находить root cause
Тюнинг БД под нагрузкой (приоритет — PostgreSQL)
Опыт построения observability и систем алертинга с нуля
Опыт on-prem и air-gapped развёртываний
Сети: L2/L3, routing, firewall, VPN
Продакшен Linux troubleshooting
Подход security-mindset с балансом на скорость доставки
Высокая автономность при работе с незнакомым стеком
Видение инфраструктуры за пределами текущей задачи
Английский B2+
Будет плюсом:
Опыт с GPU-кластерами для AI
Ceph/ZFS/распределённые хранилища
Опыт hardening/compliance для гос. заказчиков
Air-gap CI/CD
Не ищем:
YAML-инженеров, которые только применяют готовые манифесты. Нужен человек, который понимает, что происходит под капотом — и готов первым встать ночью, если что-то упало.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -

Site Reliability Engineer (AI)

Мэтч & Сопровод

Описание вакансии

Похожие вакансии

Site Reliability Engineer (Telecom)

SRE (Telecom)

DevOps Engineer (Site Reliability)

Principal Devops Engineer (AWS)

Разработка

Game Dev

Design и Creative

Аналитика

Менеджмент

People & Business

Site Reliability Engineer (AI)

Мэтч & Сопровод

Описание вакансии

Категории

Похожие вакансии

Site Reliability Engineer (Telecom)

SRE (Telecom)

DevOps Engineer (Site Reliability)

Principal Devops Engineer (AWS)