Описание вакансии довольно подробное, но требование к широкому спектру навыков может указывать на перегруженную роль. Зарплата приемлемая, но тип контракта может ограничить некоторых кандидатов.
Грейд: middle+|Senior Ставка: от 272К до 285К
Гражданство/Локация: РФ Загрузка: фуллтайм
Срок: долгосрочный
Оформление: только ИП 📌
✅Обязательные требования:
- Опыт работы в роли Data Engineer от 4-х лет;
- Опыт полного цикла создания данных: от проектирования пайплайнов и моделей до внедрения в production и мониторинга;
- Системное мышление, способность проектировать масштабируемые и отказоустойчивые решения, учитывающие объем, скорость и разнообразие данных;
- Навыки эффективной коммуникации с командами аналитики, бизнес-аналитиков, DevOps и разработки продуктов;
- Опыт проведения нагрузочных тестов DataLake-платформ;
- Практический опыт написания эффективных SQL-запросов для анализа и трансформации данных в StarRocks или аналогичных OLAP-системах (ClickHouse, Impala);
- Умение создавать и поддерживать таблицы, партиции, представления;
- Базовое понимание модели данных StarRocks (дублирующиеся/агрегатные таблицы) для реализации готовых решений;
- Опыт загрузки данных (через файлы, INSERT, использование простых коннекторов);
- Работа с HMS через Spark или Hive для создания/обновления таблиц, чтения метаданных. Понимание, для чего нужен каталог метаданных;
- Уверенная работа с Parquet, Iceberg, JSON, CSV. Понимание преимуществ колоночных форматов;
- Опыт написания DAG в Airflow (или аналоги) для планирования регулярных ETL-задач. Понимание принципов идемпотентности и перезапуска задач;
- Интеграция Data Ocean Nova с источниками данных (базы данных, BI-инструменты). Понимание архитектуры таких платформ (часто микросервисной на базе K8s);
- Понимание, как перечисленные компоненты взаимодействуют друг с другом в единой платформе. Например, как запрос из StarRocks через HMS получает метаданные таблиц, а Ranger проверяет права доступа;
- SQL (Продвинутый уровень);
- Сложные JOIN, оконные функции (window functions), агрегации;
- Умение читать и анализировать план выполнения запроса (EXPLAIN) для базовой оптимизации;
- Python (Средний уровень);
- Разработка скриптов для ETL, работа с API, Pandas для обработки данных умеренного объема. Знание основ;
- PySpark: Умение писать и оптимизировать Spark-приложения (DataFrame API) для пакетной обработки данных. Понимание основ работы трансформаций и действий (transformations/actions), принципов партиционирования данных в Spark;
- Kubernetes: Базовое понимание концепций (Pod, Deployment, Service). Опыт запуска и мониторинга своих задач (Spark, контейнеры) в K8s. Умение работать с логами подов.
📆 Задачи:
- Самостоятельная разработка, реализация и поддержка интеграционных решений на стеке технологий, принятых в команде (Java, Groovy, Apache Nifi, Airflow);
- Определение стека технологий для конкретных проектов и задач;
- Решать технически сложные задачи, которые не могут решить другие инженеры в команде;
- Оперативно реагировать на информацию о проблемах в зоне ответственности, выполнять задачи в установленные сроки;
- Разрабатывать и контролировать актуальность документации по взаимодействию конфигурационных единиц платформы больших данных;
- Предоставлять отчеты о своей деятельности начальнику отдела/руководителю в порядке, установленном руководством;
- Контроль качества интеграционных решений с последующим созданием задач/дефектов для рефакторинга;
- Определять технологическую стратегию развития проекта или продукта, работать на перспективу;
- Выстраивать процессы (например, CI/CD, код-ревью), внедрять и развивать инженерные практики..
Показать контакты
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации