Назад
5 часов назад

Senior DevOps Engineer (DWH/ML Platform)

Тип работы
fulltime
Грейд
senior
Страна
Russia
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Senior DevOps Engineer (DWH/ML Platform)
Ищем DevOps-инженера, который не просто «держит прод», а строит масштабируемую платформу для работы с данными. Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.

Технологический стек
Core Infra: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt
CI/CD: GitLab CI
Compute & Query: Trino, Apache Spark
Storage: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB
Orchestration: Apache Airflow (Kubernetes Executor)
Observability: Prometheus, Grafana, ELK
Deployment: Helm


Чем предстоит заниматься
Развитие Kubernetes-платформы (EKS)
Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).
Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).
Настройка сетевых политик, Ingress, service mesh при необходимости.

Infrastructure as Code
Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.
Поддержка принципа DRY, управление стейтами в AWS S3.
Структурирование кода для нескольких окружений (dev/stage/prod).
CI/CD пайплайны
Построение процессов доставки кода и данных через GitLab CI.
Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.
Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.
Observability
Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).
Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.
Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.
Централизованный сбор логов.

Data Ops
Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).
Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.
Участие в работе с инцидентами.

ML Support
Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.
Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.

Что хотим видеть:
Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:
Kubernetes (Expert level): Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).
IaC: Умение структурировать код для нескольких окружений (dev/stage/prod).
GitLab CI: Глубокое понимание .gitlab-ci.yml, опыт настройки пайплайнов со сложной логикой.
AWS: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA).
Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.
Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).
Опыт работы с поисковыми движками (Solr или Elasticsearch).
Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).
Опыт с GitOps (ArgoCD, Flux).
Опыт работы с Apache Iceberg и Data Lake архитектурой.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -