2 часа назад

Data Engineer (Middle+/Senior)

Формат работы

hybrid

Тип работы

fulltime

Грейд

middle/senior

Страна

Russia

Вакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

На долгий интересный проект требуется Data Engineer (Middle+ / Senior)
Локация: Москва
График: гибрид 3 дня в офисе, 2 дома
Срок проекта до конца этого года с возможностью продления.

Контекст проекта
Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.

Грейд
Middle+ / Senior
Логика оценки: коммерческий опыт от 3 лет, но фокус на самостоятельность, понимание продакшн-цикла и глубину работы со стеком.
- Явный признак Middle+: уверенная работа с Apache Spark на кластере (2–3+ нод) + опыт 4 года.
- Явный признак Senior: самостоятельное проектирование слоёв lakehouse, оптимизация cost/performance, менторство, опыт переноса решений в закрытые контуры.

MUST-HAVE (обязательно)
Категория
Требования
Язык
Python (уверенное владение, понимание ООП, типизации, работы с памятью)
ETL/ELT
Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки)
Обработка данных
PySpark / pandas / аналоги; работа с большими объёмами
Форматы
Parquet, columnar storage (понимание partitioning, compression, schema evolution)
Хранилища
S3 или аналоги (MinIO, Yandex Object Storage, etc.)
Архитектура
Data Lake / Lakehouse, multi-layer: raw → processed → curated
Data Quality
Нормализация, дедупликация, формирование golden record / master data
БД & SQL
PostgreSQL, Greenplum, ClickHouse (или аналоги); продвинутый SQL (оконные функции, CTE, оптимизация запросов)
Оркестрация
Apache Airflow (или аналоги: Dagster, Prefect, Temporal)
DevOps
Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git
Облака
Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage)
XML
lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур

NICE-TO-HAVE (сильные плюсы)
Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов)
Trino / Presto (аналитические запросы поверх lakehouse)
Табличные форматы: Apache Iceberg, Delta Lake, Hudi
Опыт работы в закрытых контурах / on-premise / air-gapped средах
Понимание Data Mesh / Data Fabric концепций
Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests)

ОСНОВНЫЕ ЗАДАЧИ
Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
Парсинг, валидация и трансформация XML-данных.
Построение слоёв raw → processed → curated (Parquet + S3).
Реализация нормализации, дедупликации и формирования "золотых" записей.
Тюнинг производительности и обеспечение стабильности в продакшене.
Подготовка решений к переносу в закрытый контур заказчика.
Взаимодействие с аналитиками, архитектором, DevOps и командой

За доп информацией писать

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -

Data Engineer (Middle+/Senior)

Мэтч & Сопровод

Описание вакансии

Похожие вакансии

Data Engineer (ClickHouse)

Senior Python Developer (Logistics)

Data Engineer (Big Data)

Senior Data Engineer

Data Engineer (ClickHouse)

SQL Developer (Middle+)

Разработка

Game Dev

Design и Creative

Аналитика

Менеджмент

People & Business

Data Engineer (Middle+/Senior)

Мэтч & Сопровод

Описание вакансии

Категории

Похожие вакансии

Data Engineer (ClickHouse)

Senior Python Developer (Logistics)

Data Engineer (Big Data)

Senior Data Engineer

Data Engineer (ClickHouse)

SQL Developer (Middle+)