Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
Текст:
TL;DR
Lead SRE Engineer: Управление надежностью высоконагруженной платформы с акцентом на SLO/SLI, capacity planning и автоматизацию процессов эксплуатации. Фокус на расследовании сложных инцидентов, оптимизации производительности систем в Kubernetes и менторстве команд разработки.
Локация: Можно удаленно или гибрид в Москве.
Компания
Cloud.ru — один из ведущих российских облачных провайдеров, предоставляющий инфраструктурные сервисы для бизнеса.
Что делать
- Проектирование и внедрение методологий SLO/SLI и управление Error Budget.
- Разработка стратегий мониторинга, алертинга и автоматизация рутинных задач (Toil reduction).
- Участие в управлении инцидентами в роли Incident Commander и проведение RCA.
- Capacity planning и прогнозирование нагрузки на платформу.
- Улучшение observability (метрики, логи, трейсы) и повышение отказоустойчивости сервисов.
- Менторство и обучение команд разработки принципам надежности и observability.
Требования
- Глубокий опыт внедрения SRE-практик (SLO/SLI, Error Budget, Automation).
- Экспертиза в эксплуатации Linux (диагностика ядра, память, сеть) и сетевых стеках L2-L7.
- Практический опыт работы с Kubernetes и понимание внутренних механизмов системы.
- Уверенное владение IaC (Terraform, Ansible) и навыками программирования (Python, Go, Bash).
- Опыт построения Quality Gates в CI/CD процессах для управления рисками.
- Системное мышление для анализа сложных сбоев и написания технической документации.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →