Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
Текст:
TL;DR
Ведущий SRE-инженер: обеспечение стабильности, масштабируемости и наблюдаемости производственной инфраструктуры с акцентом на SLO/SLI, автоматизацию процессов и управление инцидентами. Фокус на проектировании высоконагруженных систем, анализе отказоустойчивости и оптимизации эксплуатации облачных сервисов.
Локация: Москва
Компания
Cloud.ru — провайдер облачных сервисов и решений для бизнеса.
Что делать
- Отвечать за стабильную работу production-систем и минимизацию простоев.
- Проектировать и внедрять системы метрик, алертинга и дашбордов для мониторинга продуктов.
- Участвовать в устранении аварий, проведении постмортемов и разработке мер по предотвращению инцидентов.
- Повышать уровень наблюдаемости и надежности облачных решений.
- Автоматизировать рутинные эксплуатационные задачи и разрабатывать планы восстановления после сбоев (DRP).
Требования
- Экспертный уровень работы с Linux-системами в промышленной среде.
- Глубокое понимание принципов SLO, SLI и SLA.
- Практический опыт работы с Grafana, Prometheus и инструментами виртуализации.
- Навыки работы с IaC-подходами к описанию инфраструктуры.
- Знание сетевых технологий, умение диагностировать и устранять проблемы на уровне сети.
- Опыт работы с системами хранения данных (СХД, SDS, блочные массивы).
Хорошо, если есть
- Опыт промышленной эксплуатации OpenStack.
- Практический опыт работы в SRE-ролях.
- Навыки создания отказоустойчивых и масштабируемых сервисов.
- Опыт работы с системами управления конфигурациями.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →