Эта вакансия старше 7 дней и может быть неактуальной.
Чтобы не пропустить новые вакансии и откликаться в числе первых, подпишитесь на уведомления в Telegram
LIAN
28 days ago
Data Engineer
300 000 - 350 000₽
Описание вакансии
Data Engineer
#удаленка #300k
Опыт работы: 3–6 лет
Компания: LIAN
ЗП: от 300 000 до 350 000 ₽
Мы ищем опытного Data Engineer для доработки существующего пайплайна загрузки данных из SAP HANA в Hadoop на Apache Spark.
Стек проекта: Apache Spark (Scala / PySpark), Hadoop (HDFS, Hive), SAP HANA (JDBC), Python, Airflow (желательно), GitLab, Docker, Kubernetes (будет плюсом)
🔹Обязанности:
-Доработка и оптимизация существующего Spark-лоадера для загрузки данных из SAP HANA в Hadoop.
-Реализация многопоточной (параллельной) загрузки для повышения производительности и сокращения времени выполнения.
-Оптимизация Spark-джоб: работа с партиционированием, настройка параметров JDBC, устранение data skew.
-Перенос пайплайна из Jupyter Notebook в промышленный ETL-процесс (Airflow, bash-скрипт или Spark Submit).
🔹Требования:
-Опыт работы с Apache Spark: написание и оптимизация пайплайнов обработки больших данных.
-Уверенные знания партиционирования и многопоточной загрузки из реляционных БД в Spark.
-Опыт интеграции со сторонними источниками данных по JDBC (желательно SAP HANA).
-Знание Hadoop-экосистемы.
-Опыт работы с Python, Scala или Java.
-Умение работать с системами контроля версий (Git).
🔹Будет плюсом:
-Опыт построения автоматизированных ETL пайплайнов (Airflow).
-Опыт работы с большими компаниями и высоконагруженными системами.
-Навыки мониторинга и алертинга (Grafana, Zabbix).
🔹Условия:
-Реальная задача по оптимизации производительности на живых больших данных.
-Работа в команде с сильной экспертизой в Big Data.
-Возможность влиять на архитектуру и процессы.
-Аутстафф проект
-Сотрудничество через форму ИП или СЗ
Контакты:
⬇️ Другие каналы IT-вакансий:
@best_itjob
@it_rab
#удаленка #300k
Опыт работы: 3–6 лет
Компания: LIAN
ЗП: от 300 000 до 350 000 ₽
Мы ищем опытного Data Engineer для доработки существующего пайплайна загрузки данных из SAP HANA в Hadoop на Apache Spark.
Стек проекта: Apache Spark (Scala / PySpark), Hadoop (HDFS, Hive), SAP HANA (JDBC), Python, Airflow (желательно), GitLab, Docker, Kubernetes (будет плюсом)
🔹Обязанности:
-Доработка и оптимизация существующего Spark-лоадера для загрузки данных из SAP HANA в Hadoop.
-Реализация многопоточной (параллельной) загрузки для повышения производительности и сокращения времени выполнения.
-Оптимизация Spark-джоб: работа с партиционированием, настройка параметров JDBC, устранение data skew.
-Перенос пайплайна из Jupyter Notebook в промышленный ETL-процесс (Airflow, bash-скрипт или Spark Submit).
🔹Требования:
-Опыт работы с Apache Spark: написание и оптимизация пайплайнов обработки больших данных.
-Уверенные знания партиционирования и многопоточной загрузки из реляционных БД в Spark.
-Опыт интеграции со сторонними источниками данных по JDBC (желательно SAP HANA).
-Знание Hadoop-экосистемы.
-Опыт работы с Python, Scala или Java.
-Умение работать с системами контроля версий (Git).
🔹Будет плюсом:
-Опыт построения автоматизированных ETL пайплайнов (Airflow).
-Опыт работы с большими компаниями и высоконагруженными системами.
-Навыки мониторинга и алертинга (Grafana, Zabbix).
🔹Условия:
-Реальная задача по оптимизации производительности на живых больших данных.
-Работа в команде с сильной экспертизой в Big Data.
-Возможность влиять на архитектуру и процессы.
-Аутстафф проект
-Сотрудничество через форму ИП или СЗ
Контакты:
⬇️ Другие каналы IT-вакансий:
@best_itjob
@it_rab
Источник - Data Engineer Работа Вакансии