Назад
3 дня назад

Senior Data Engineer (Greenplum/Spark)

Формат работы
remote (только Russia)
Тип работы
fulltime
Грейд
senior
Страна
Russia/Belarus
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

ID 2191
Data Engineer
Senior

🌍 Локация: РФ, РБ
💼Сотрудничество : по ИП РФ, СМЗ РБ

Eclipse Digital
https://eclipse-studio.ru/ - наниматель

Вакансия - нашего партнера
Ключевые компетенции
Java
CI/CD
DWH
Python
Greenplum
ETL
Data Vault
Apache Spark
Airfolw
Гражданство
РФ, РБ

Требования
Требования:
1. Опыт
• 4–6+ лет опыта в построении и развитии хранилищ данных, проектировании и поддержке промышленного ETL-ландшафта.
• Самостоятельно ведёт проекты и консультирует коллег по архитектуре и оптимизации.

2. Технические навыки
• Глубоко понимает принципы работы Greenplum: распределение данных, партиционирование, планы выполнения запросов, оптимизация под большие объёмы.
• Глубоко владеет Apache Spark: проектирует и оптимизирует производительные data-pipeline’ы под большие объёмы данных и сложную трансформационную логику.
• Понимает внутреннее устройство Spark (RDD, DAG, shuffle, executor’ы), умеет устранять performance bottleneck’и.
• Настраивает кластерную инфраструктуру, контролирует ресурсы, внедряет best-practice по оптимизации и мониторингу Spark-задач.
• Наставляет команду по эффективному использованию Spark и интеграции его с другими инструментами (Kafka, Airflow, Hadoop, S3 и др.).
• Использует Java и Python для гибридных ETL-решений и автоматизации.
• Проектирует и оптимизирует сложные ETL-пайплайны под большие объёмы данных.
• Прорабатывает архитектуру потоков данных и моделей.
• Владеет несколькими инструментами ETL и оркестрации (Airflow, Luigi, dbt).
• Настраивает CI/CD для ETL (Liquibase, Jenkins, GitLab CI).
• Разрабатывает общие ETL-фреймворки и библиотеки для команды.

3. Архитектура и моделирование данных
• Проектирует архитектуру DWH, включая логические и физические модели.
• Проектирует архитектуру ETL-потоков под разные типы хранилищ и объёмы данных.
• Оптимизирует производительность пайплайнов, выбирает подходящую модель хранения.
• Владеет Data Vault 2.0 и практиками построения корпоративных хранилищ, знает подходы к загрузке HUB/SAT/LINK.
• Устанавливает стандарты моделирования и именования.

4. Интеграция и качество данных
• Настраивает мониторинг загрузок и метрики качества.
• Разрабатывает и внедряет систему контроля качества данных, мониторинг Spark job-ов
• Настраивает автоматическое восстановление процессов, ведёт логи и алертинг.
• Автоматизирует тестирование и отладку пайплайнов.
• Разрабатывает политики версионирования и деплоймента данных.

5. Взаимодействие и бизнес-ориентированность
• Обсуждает архитектуру данных и приоритеты с заказчиками и архитекторами.
• Помогает аналитикам и инженерам использовать данные эффективнее.
• Предлагает оптимизацию процессов обработки данных под цели бизнеса.
• Влияет на развитие корпоративной аналитической платформы.
• Имеет опыт анализа статистики сроков сбора витрин, подготовки и заключения SLA с бизнесом.

Достижения / результаты
• Руководил разработкой или редизайном DWH-решений с измеримым эффектом (скорость, надёжность, масштабируемость).
• Вёл проекты по переходу на Spark-инфраструктуру или миграции между DWH (например, Oracle → Greenplum).
• Разработал единый ETL-фреймворк или стандарты для команды.
• Запускал крупные инициативы: миграции, переход на новые технологии, стандартизацию ETL.
• Выступает в роли наставника и формирует лучшие практики в команде.

📨 Откликнуться можно в telegram

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -