Эта вакансия в архиве

Посмотреть похожие вакансии ↓
обновлено 6 часов назад

Lead SRE Engineer

Формат работы
remote (только Russia)/hybrid
Тип работы
fulltime
Грейд
lead
Английский
b2
Страна
Russia

Описание вакансии

Текст:
/

TL;DR

Lead SRE Engineer: Управление надежностью высоконагруженной платформы с акцентом на SLO/SLI, capacity planning и автоматизацию процессов эксплуатации. Фокус на расследовании сложных инцидентов, оптимизации производительности систем в Kubernetes и менторстве команд разработки.

Локация: Можно удаленно или гибрид в Москве.

Компания

Cloud.ru — один из ведущих российских облачных провайдеров, предоставляющий инфраструктурные сервисы для бизнеса.

Что делать

  • Проектирование и внедрение методологий SLO/SLI и управление Error Budget.
  • Разработка стратегий мониторинга, алертинга и автоматизация рутинных задач (Toil reduction).
  • Участие в управлении инцидентами в роли Incident Commander и проведение RCA.
  • Capacity planning и прогнозирование нагрузки на платформу.
  • Улучшение observability (метрики, логи, трейсы) и повышение отказоустойчивости сервисов.
  • Менторство и обучение команд разработки принципам надежности и observability.

Требования

  • Глубокий опыт внедрения SRE-практик (SLO/SLI, Error Budget, Automation).
  • Экспертиза в эксплуатации Linux (диагностика ядра, память, сеть) и сетевых стеках L2-L7.
  • Практический опыт работы с Kubernetes и понимание внутренних механизмов системы.
  • Уверенное владение IaC (Terraform, Ansible) и навыками программирования (Python, Go, Bash).
  • Опыт построения Quality Gates в CI/CD процессах для управления рисками.
  • Системное мышление для анализа сложных сбоев и написания технической документации.