Назад
6 дней назад

Senior DevOps Engineer (DWH/ML Platform)

Формат работы
onsite
Тип работы
fulltime
Грейд
senior
Страна
Uzbekistan
vacancy_detail.hirify_telegram_tooltip Загружаем источник...

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии



Привет, Узбекистан, stealth mode
# Senior DevOps Engineer (DWH/ML Platform)

Ищем **DevOps-инженера**, который не просто «держит прод», а строит масштабируемую платформу для работы с данными.
Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.


## Технологический стек

- **Core Infra**: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt
- **CI/CD**: GitLab CI
- **Compute & Query**: Trino, Apache Spark
- **Storage**: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB
- **Orchestration**: Apache Airflow (Kubernetes Executor)
- **Observability**: Prometheus, Grafana, ELK
- **Deployment**: Helm

## Чем предстоит заниматься

### Развитие Kubernetes-платформы (EKS)
- Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).
- Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).
- Настройка сетевых политик, Ingress, service mesh при необходимости.

### Infrastructure as Code
- Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.
- Поддержка принципа DRY, управление стейтами в AWS S3.
- Структурирование кода для нескольких окружений (dev/stage/prod).

### CI/CD пайплайны
- Построение процессов доставки кода и данных через GitLab CI.
- Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.
- Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.

### Observability
- Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).
- Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.
- Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.
- Централизованный сбор логов

### Data Ops
- Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).
- Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.
- Участие в работе с инцидентами

### ML Support
- Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.
- Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.

## Что хотим видеть

Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:

- **Kubernetes (Expert level)**: Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).
- **IaC**: Умение структурировать код для нескольких окружений (dev/stage/prod).
- **GitLab CI**: Глубокое понимание `.gitlab-ci.yml`, опыт настройки пайплайнов со сложной логикой
- **AWS**: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA).
- Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.
- Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).
- Опыт работы с поисковыми движками (Solr или Elasticsearch).
- Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).
- Опыт с GitOps (ArgoCD, Flux).
- Опыт работы с Apache Iceberg и Data Lake архитектурой.{}


Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -