Site Reliability Engineer

Формат работы

onsite

Тип работы

fulltime

Грейд

middle/senior

Страна

Russia

Вакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Site Reliability Engineer (SRE)

Компания: международная логистическая компания
Тип занятости: #full_time
Уровень: #middle+ #senior
Страна: #RU
Локация: #office

Подробное описание вакансии:

Нажмите, чтобы развернуть...

Нам нужен инженер, который не боится нестандартных задач и умеет работать там, где нет готовых решений «из коробки». Вы будете заниматься поддержкой, эволюцией и наблюдаемостью legacy-инфраструктуры на Rancher 1.6, IPsec mesh и HAProxy. Здесь высокая цена ошибки — production и сетевые деградации ощущаются сразу. Поэтому мы ищем человека, который пишет инструменты сам, глубоко понимает сети и готов разбираться в low-level проблемах (DNS, перезагрузка балансировщиков, туннели).

Обязанности
- Поддержка и развитие инфраструктуры на Rancher 1.6 (контейнеризация, управление окружениями)
- Работа с IPsec mesh и overlay-сетями — диагностика, оптимизация, отказоустойчивость
- Настройка и тюнинг HAProxy (L4/L7) в связке с контейнерной средой
- Разработка инструментов автоматизации и наблюдаемости на Python
- Построение мониторинга на Prometheus: кастомные метрики, алерты, сбор данных с legacy-компонентов
- Troubleshooting production-инцидентов без готовых алертов
- Работа с сопутствующими сервисами: PostgreSQL, RabbitMQ
- Написание документации и runbook’ов для типовых проблем

Требования
- Опыт в DevOps / SRE от 4 лет
- Docker на практике — уверенная работа с контейнерами
- HAProxy или аналогичные L7/L4 балансировщики (настройка, релоады, debugging)
- Prometheus — не только базовые метрики, но и написание кастомных экспортеров/метрик
- Глубокое понимание сетей: TCP/IP, VPN (особенно IPsec), overlay, маршрутизация
- Опыт реального troubleshooting production-инцидентов
- Умение писать код на Python для автоматизации, мониторинга, вспомогательных инструментов
- Опыт работы с нестандартной / legacy инфраструктурой
- Готовность разбираться в low-level проблемах (сеть, DNS, механика перезагрузки HAProxy, Rancher 1.6)

Будет плюсом
- Опыт с Rancher 1.x
- PostgreSQL и RabbitMQ (диагностика, мониторинг)
- Опыт построения mesh / cluster-мониторинга

Что предлагаем
- Реальные задачи с высокой инженерной сложностью
- Минимум бюрократии — максимум самостоятельности
- Возможность влиять на архитектуру наблюдаемости и надёжности
- Конкурентную зарплату (по результатам собеседования)

Дополнительная информация
Проект: Поддержка и развитие legacy-инфраструктуры на базе Rancher 1.6. Локация: Москва. Зарплата обсуждается по результатам собеседования.

Контакты
- Telegram:

Стек технологий: #rancher #ipsec #haproxy #python #prometheus #postgresql #rabbitmq #docker

🔗Ссылка на канал | 📋Все каналы

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -

Site Reliability Engineer

Мэтч & Сопровод

Описание вакансии

Похожие вакансии

DevOps Engineer (ML)

Middle DevOps Engineer (AI/ML)

Senior Data Platform Engineer / Big Data SRE

Senior DevOps Инженер

DevOps инженер

Middle DevOps Engineer (Kubernetes/Docker)