Вакансия из Telegram канала - Название доступно после авторизации
Пожаловаться
82
Хорошая вакансия
развернуть
Хорошо структурированная роль с современным Big Data стеком и понятными задачами. Фокус на Lakehouse и тюнинге производительности делает её сильным техническим вызовом, хотя это аутсорс-проект.
Кликните для подробной информации
Зарплата не указанаАутсорс-модельСовременный стекПонятные задачиПродвинутые инструменты
Оценка от Hirify AI
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
🧠😘😀😘😘🥰😀🫢Data Engineer (Middle+ / Senior)
Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.
Грейд
Middle+ / Senior
коммерческий опыт от 3 лет
MUST-HAVE (обязательно)
Требования
Язык
Python (уверенное владение, понимание ООП, типизации, работы с памятью)
ETL/ELT
Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки)
Обработка данных
PySpark / pandas / аналоги; работа с большими объёмами
Форматы
Parquet, columnar storage (понимание partitioning, compression, schema evolution)
Хранилища
S3 или аналоги (MinIO, Yandex Object Storage, etc.)
Архитектура
Data Lake / Lakehouse, multi-layer: raw → processed → curated
Data Quality
Нормализация, дедупликация, формирование golden record / master data
БД & SQL
PostgreSQL, Greenplum, ClickHouse (или аналоги); продвинутый SQL (оконные функции, CTE, оптимизация запросов)
Оркестрация
Apache Airflow (или аналоги: Dagster, Prefect, Temporal)
DevOps
Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git
Облака
Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage)
XML
lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур
NICE-TO-HAVE (сильные плюсы)
Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов)
Trino / Presto (аналитические запросы поверх lakehouse)
Табличные форматы: Apache Iceberg, Delta Lake, Hudi
Опыт работы в закрытых контурах / on-premise / air-gapped средах
Понимание Data Mesh / Data Fabric концепций
Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests)
ОСНОВНЫЕ ЗАДАЧИ
Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
Парсинг, валидация и трансформация XML-данных.
Построение слоёв raw → processed → curated (Parquet + S3).
Реализация нормализации, дедупликации и формирования "золотых" записей.
Тюнинг производительности и обеспечение стабильности в продакшене.
Подготовка решений к переносу в закрытый контур заказчика.
Взаимодействие с аналитиками, архитектором, DevOps и командой проекта.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации