Назад
6 дней назад

SRE Engineer Middle+

1 500
Формат работы
onsite
Тип работы
fulltime
Грейд
middle
Страна
Belarus
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

SRE инженер Middle+

Ставка: 1500, с НДС
Срок привлечения от 1 года (до 31.12.2026)
Требуемая локация специалиста: Россия, Беларусь

Обязательные требования
- Опыт работы с Linux;
- Понимание и навыки работы с Kubernetes;
- Мониторинг (Prometheus, Alertmanager);
- Опыт работы с системами логирования (OpenSearch, Loki, Vector);
- Опыт работы с Distributed Tracing системами (OpenTelemetry, Tempo);
- Опыт в написании и ревью скриптов ( например Python, Bash, Go);
- Понимание SLI/SLO/SLA;
- Опыт работы с CI/CD (ArgoCD, Jenkins, Github/GitLab, Helm charts);
- Навыки траблшутинга;
- Опыт работы с GrafanaOnCall.

Дополнительные требования
- Опыт работы с Mimir;
- Опыт работы с Sentry;
- Опыт работы с postgreSQL, MongoDB;
- Опыт работы с load-balancer/reverse proxy (Nginx, HaProxy);
- Опыт работы с публичными облаками (у нас Yandex Cloud, Cloud.ru);
- Опыт работы с service-mesh (Istio);
- Опыт тестирования отказоустойчивости и нагрузочного тестирования.

Задачи на проекте
- Участие в построении мониторинга инфраструктуры и приложений в соответствии со стандартами компании (метрики, логирование, трейсинг);
- Поддержка и развитие наблюдаемости и устойчивости продуктов;
- Встраивание продуктов в зонтичный мониторинг компании;
- Работа с SLI/SLO продуктов, траблшутинг;
- Автоматизация, шаблонизация и документация типовых сценариев.

Описание проекта и команды
Заказчик - международный ритейлер строительных материалов и товаров для дома.

RUN-бэклог платформы в части надежности и наблюдаемости продуктов платформы, накопление и консолидация знаний о продуктах и инструментах, участие в проектах по замещению инструментов.

В команде в основном DevOps, SRE и 1 джун.

Необходимо: обладать способностью извлекать нужную информацию. Нет нужды придумывать новые подходы, однако важно адаптировать существующие решения платформенных команд применительно к своей сфере ответственности и своевременно документировать процесс.

Дежурств не бывает, но крайне редко бывают моменты, когда кто-то должен быть на телефоне, чтобы принять звонок и решить проблему.

Стек проекта:
- Мониторинг через Grafana + Prometheus - основной стек для наблюдаемости метрик.
- Логирование - сейчас используется OpenSearch (с поддержкой Offland), однако планируется переход на Grafana Loki. Есть два варианта:
1. Локальный Loki (подробно настроен, предпочтительный);
2. Коммунальный (shared) Loki - менее функциональный, используется временно.
Часть команд уже перешла на Loki, другие ещё находятся на OpenSearch.
- Трассировка - реализована через OpenTelemetry, визуализация - в Grafana Tempo.

Дополнительные инструменты мониторинга:
- VictoriaMetrics - используется, например, в качестве бэкенда для метрик API-прокси и у DBA-команды.
- Алертинг настроен через Grafana OnCall. Отказ от Windows-инфраструктуры возможен, но без Grafana OnCall погрузиться будет тяжело.
- Jenkins технически доступен, но в основном используется DevOps-командой, так как сборка приложений полностью контейнеризована.
- Ansible и Terraform допустимы к использованию — при необходимости их можно внедрить. Глубоких знаний не требуется. Надо будет прийти к Олегу и обсудить, что хочет использовать эти инструменты, чтобы решить.

Будьте осторожны: если вас просят войти в iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -