Покажет вашу совместимость и напишет письмо
Привет, Узбекистан, stealth mode
# Senior DevOps Engineer (DWH/ML Platform)
Ищем **DevOps-инженера**, который не просто «держит прод», а строит масштабируемую платформу для работы с данными.
Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.
## Технологический стек
- **Core Infra**: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt
- **CI/CD**: GitLab CI
- **Compute & Query**: Trino, Apache Spark
- **Storage**: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB
- **Orchestration**: Apache Airflow (Kubernetes Executor)
- **Observability**: Prometheus, Grafana, ELK
- **Deployment**: Helm
## Чем предстоит заниматься
### Развитие Kubernetes-платформы (EKS)
- Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).
- Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).
- Настройка сетевых политик, Ingress, service mesh при необходимости.
### Infrastructure as Code
- Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.
- Поддержка принципа DRY, управление стейтами в AWS S3.
- Структурирование кода для нескольких окружений (dev/stage/prod).
### CI/CD пайплайны
- Построение процессов доставки кода и данных через GitLab CI.
- Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.
- Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.
### Observability
- Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).
- Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.
- Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.
- Централизованный сбор логов
### Data Ops
- Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).
- Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.
- Участие в работе с инцидентами
### ML Support
- Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.
- Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.
## Что хотим видеть
Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:
- **Kubernetes (Expert level)**: Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).
- **IaC**: Умение структурировать код для нескольких окружений (dev/stage/prod).
- **GitLab CI**: Глубокое понимание `.gitlab-ci.yml`, опыт настройки пайплайнов со сложной логикой
- **AWS**: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA).
- Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.
- Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).
- Опыт работы с поисковыми движками (Solr или Elasticsearch).
- Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).
- Опыт с GitOps (ArgoCD, Flux).
- Опыт работы с Apache Iceberg и Data Lake архитектурой.{}
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений