Назад
3 дня назад

Data Engineer for VLM Training Data (GigaChat Vision)

Формат работы
onsite
Тип работы
fulltime
Страна
Russia
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Data Engineer for VLM Training Data (GigaChat Vision)
#офис
Москва
Компания: Сбер

🔹Обязанности
-Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.
-Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.
-Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.
-Отвечать за инфраструктуру хранения и подготовки данных, включая:
импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;
валидацию и контроль качества данных;
хранение и версионирование датасетов;
экспорт данных в форматы, пригодные для обучения моделей.
-Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.
-Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.
-Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.
-Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.
-Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.

🔹Требования
-Сильный опыт в data engineering и построении production-grade data pipelines.
-Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.
-Опыт работы с большими объёмами данных и распределённой обработкой.
-Практический опыт с объектными хранилищами, в частности S3 или аналогами.
-Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.
-Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.
-Опыт работы с DVC, Git, Docker.
-Опыт работы с PostgreSQL или другими реляционными базами данных.
-Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.
-Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.
-Готовность работать на стыке engineering и ML research.



IT Jobs | |

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -