Вакансия из Telegram канала - Название доступно после авторизации
Пожаловаться
Зарплата и рынок
ЗП не указана
На похожих ролях по рынку
$2.4к$3.4кмедиана$3.9к
49 в выборке
На международном рынке: $119к/год ($50к - $196к)
82
Хорошая вакансия
развернуть
Технически сильная роль с современным Lakehouse стеком и очень прозрачными требованиями, хотя проектный формат работы добавляет немного нестабильности.
Кликните для подробной информации
Срок проектаСовременный стекПрозрачные требованияМасштабные задачиЗарплата не указана
Оценка от Hirify AI
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
На долгий интересный проект требуется Data Engineer (Middle+ / Senior)
Локация: Москва
График: гибрид 3 дня в офисе, 2 дома
Срок проекта до конца этого года с возможностью продления.
Контекст проекта
Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.
Грейд
Middle+ / Senior
Логика оценки: коммерческий опыт от 3 лет, но фокус на самостоятельность, понимание продакшн-цикла и глубину работы со стеком.
- Явный признак Middle+: уверенная работа с Apache Spark на кластере (2–3+ нод) + опыт 4 года.
- Явный признак Senior: самостоятельное проектирование слоёв lakehouse, оптимизация cost/performance, менторство, опыт переноса решений в закрытые контуры.
MUST-HAVE (обязательно)
Категория
Требования
Язык
Python (уверенное владение, понимание ООП, типизации, работы с памятью)
ETL/ELT
Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки)
Обработка данных
PySpark / pandas / аналоги; работа с большими объёмами
Форматы
Parquet, columnar storage (понимание partitioning, compression, schema evolution)
Хранилища
S3 или аналоги (MinIO, Yandex Object Storage, etc.)
Архитектура
Data Lake / Lakehouse, multi-layer: raw → processed → curated
Data Quality
Нормализация, дедупликация, формирование golden record / master data
БД & SQL
PostgreSQL, Greenplum, ClickHouse (или аналоги); продвинутый SQL (оконные функции, CTE, оптимизация запросов)
Оркестрация
Apache Airflow (или аналоги: Dagster, Prefect, Temporal)
DevOps
Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git
Облака
Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage)
XML
lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур
NICE-TO-HAVE (сильные плюсы)
Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов)
Trino / Presto (аналитические запросы поверх lakehouse)
Табличные форматы: Apache Iceberg, Delta Lake, Hudi
Опыт работы в закрытых контурах / on-premise / air-gapped средах
Понимание Data Mesh / Data Fabric концепций
Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests)
ОСНОВНЫЕ ЗАДАЧИ
Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
Парсинг, валидация и трансформация XML-данных.
Построение слоёв raw → processed → curated (Parquet + S3).
Реализация нормализации, дедупликации и формирования "золотых" записей.
Тюнинг производительности и обеспечение стабильности в продакшене.
Подготовка решений к переносу в закрытый контур заказчика.
Взаимодействие с аналитиками, архитектором, DevOps и командой
За доп информацией писать Показать контакты
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации