Эта вакансия в архиве

Посмотреть похожие вакансии ↓
обновлено 6 часов назад

Lead SRE Engineer (Linux)

Формат работы
onsite
Тип работы
fulltime
Грейд
lead
Страна
Russia

Описание вакансии

Текст:
/

TL;DR

Ведущий SRE-инженер: обеспечение стабильности, масштабируемости и наблюдаемости производственной инфраструктуры с акцентом на SLO/SLI, автоматизацию процессов и управление инцидентами. Фокус на проектировании высоконагруженных систем, анализе отказоустойчивости и оптимизации эксплуатации облачных сервисов.

Локация: Москва

Компания

Cloud.ru — провайдер облачных сервисов и решений для бизнеса.

Что делать

  • Отвечать за стабильную работу production-систем и минимизацию простоев.
  • Проектировать и внедрять системы метрик, алертинга и дашбордов для мониторинга продуктов.
  • Участвовать в устранении аварий, проведении постмортемов и разработке мер по предотвращению инцидентов.
  • Повышать уровень наблюдаемости и надежности облачных решений.
  • Автоматизировать рутинные эксплуатационные задачи и разрабатывать планы восстановления после сбоев (DRP).

Требования

  • Экспертный уровень работы с Linux-системами в промышленной среде.
  • Глубокое понимание принципов SLO, SLI и SLA.
  • Практический опыт работы с Grafana, Prometheus и инструментами виртуализации.
  • Навыки работы с IaC-подходами к описанию инфраструктуры.
  • Знание сетевых технологий, умение диагностировать и устранять проблемы на уровне сети.
  • Опыт работы с системами хранения данных (СХД, SDS, блочные массивы).

Хорошо, если есть

  • Опыт промышленной эксплуатации OpenStack.
  • Практический опыт работы в SRE-ролях.
  • Навыки создания отказоустойчивых и масштабируемых сервисов.
  • Опыт работы с системами управления конфигурациями.