6 дней назад

Senior DevOps Engineer (DWH/ML Platform)

Формат работы

onsite

Тип работы

fulltime

Грейд

senior

Страна

Uzbekistan

Загружаем источник...

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии



    

        Привет, Узбекистан, stealth mode

# Senior DevOps Engineer (DWH/ML Platform)



Ищем **DevOps-инженера**, который не просто «держит прод», а строит масштабируемую платформу для работы с данными.

Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.





## Технологический стек



- **Core Infra**: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt

- **CI/CD**: GitLab CI

- **Compute & Query**: Trino, Apache Spark

- **Storage**: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB

- **Orchestration**: Apache Airflow (Kubernetes Executor)

- **Observability**: Prometheus, Grafana, ELK

- **Deployment**: Helm



## Чем предстоит заниматься



### Развитие Kubernetes-платформы (EKS)

- Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).

- Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).

- Настройка сетевых политик, Ingress, service mesh при необходимости.



### Infrastructure as Code

- Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.

- Поддержка принципа DRY, управление стейтами в AWS S3.

- Структурирование кода для нескольких окружений (dev/stage/prod).



### CI/CD пайплайны

- Построение процессов доставки кода и данных через GitLab CI.

- Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.

- Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.



### Observability

- Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).

- Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.

- Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.

- Централизованный сбор логов 



### Data Ops

- Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).

- Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.

- Участие в работе с инцидентами



### ML Support

- Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.

- Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.



## Что хотим видеть



Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:



- **Kubernetes (Expert level)**: Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).

- **IaC**:  Умение структурировать код для нескольких окружений (dev/stage/prod).

- **GitLab CI**: Глубокое понимание `.gitlab-ci.yml`, опыт настройки пайплайнов со сложной логикой

- **AWS**: Понимание сетевого взаимодействия  и управления правами (IAM Policies/Roles, IRSA).

- Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.

- Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).

- Опыт работы с поисковыми движками (Solr или Elasticsearch).

- Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).

- Опыт с GitOps (ArgoCD, Flux).

- Опыт работы с Apache Iceberg и Data Lake архитектурой.{}

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -

Senior DevOps Engineer (DWH/ML Platform)

Мэтч & Сопровод

Описание вакансии

Похожие вакансии

Middle DevOps (Bare-metal + AWS)

Senior DevOps

DevOps Engineer

Senior DevOps Engineer (AWS)