Эта вакансия в архиве
Посмотреть похожие вакансии ↓Описание вакансии
Текст:
TL;DR
Lead SRE Engineer: Управление надежностью высоконагруженной платформы с акцентом на SLO/SLI, capacity planning и автоматизацию процессов эксплуатации. Фокус на расследовании сложных инцидентов, оптимизации производительности систем в Kubernetes и менторстве команд разработки.
Локация: Можно удаленно или гибрид в Москве.
Компания
Cloud.ru — один из ведущих российских облачных провайдеров, предоставляющий инфраструктурные сервисы для бизнеса.
Что делать
- Проектирование и внедрение методологий SLO/SLI и управление Error Budget.
- Разработка стратегий мониторинга, алертинга и автоматизация рутинных задач (Toil reduction).
- Участие в управлении инцидентами в роли Incident Commander и проведение RCA.
- Capacity planning и прогнозирование нагрузки на платформу.
- Улучшение observability (метрики, логи, трейсы) и повышение отказоустойчивости сервисов.
- Менторство и обучение команд разработки принципам надежности и observability.
Требования
- Глубокий опыт внедрения SRE-практик (SLO/SLI, Error Budget, Automation).
- Экспертиза в эксплуатации Linux (диагностика ядра, память, сеть) и сетевых стеках L2-L7.
- Практический опыт работы с Kubernetes и понимание внутренних механизмов системы.
- Уверенное владение IaC (Terraform, Ansible) и навыками программирования (Python, Go, Bash).
- Опыт построения Quality Gates в CI/CD процессах для управления рисками.
- Системное мышление для анализа сложных сбоев и написания технической документации.
Похожие вакансии
SimbirSoft
20 часов назад
SRE Engineer (Kubernetes)
Купер
4 дня назад
Senior DevOps-инженер (Core Infra)
Selecty
4 дня назад
SRE/DevOps Engineer (Fintech)
300 000 - 350 000₽
Wildberries
3 дня назад
DevOps Engineer (Data Center)
Karma8
2 дня назад
SRE/DevOps Инженер (highload, bare metal)
350 000₽
СберЗдоровье
5 дней назад