4 часа назад

Pretrain Data LLM Researcher (AI)

400 000 - 1 000 000₽

Формат работы

hybrid

Тип работы

fulltime

Грейд

middle/senior

Английский

Страна

Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:

TL;DR

Pretrain Data LLM Researcher (AI): Разработка и оптимизация стратегий сбора и фильтрации данных для обучения фронтирных LLM с акцентом на ablation-эксперименты и синтез данных. Фокус на управлении корпусами в триллионы токенов, применении scaling laws и создании измеримых сигналов качества для роста метрик модели.

Локация: Гибрид, Москва (м. Кутузовская)

Зарплата: 400 000 — 1 000 000 ₽/мес до налогов

Компания

GigaChat — команда, создающая одну из крупнейших в стране LLM с открытым доступом и амбициями достичь мирового уровня.

Что делать

Проектировать и проводить ablation-эксперименты по подбору смеси данных, фильтрам и порядку обучения.
Оптимизировать распределение токенов и состав данных, опираясь на scaling laws.
Курировать корпуса данных масштабом в триллионы токенов: проводить дедупликацию, очистку и фильтрацию.
Разрабатывать рецепты и генерировать синтетические данные для развития способностей модели в кодинге и рассуждениях.
Собирать траектории использования инструментов и взаимодействия со средой для agentic-pretrain.
Развивать систему бенчмарков для точного измерения влияния изменений в данных на качество модели.

Требования

Сильный опыт проведения контролируемых ML-экспериментов (гипотеза → дизайн → измерение → вывод).
Уверенное владение Python и опыт обучения моделей на PyTorch или аналогах.
Теоретическое понимание цикла обучения LLM: токенизация, влияние состава данных, scaling laws.
Знакомство с распределенной обработкой данных (Spark, Dask, Airflow, Kubernetes).
Способность самостоятельно вести исследовательское направление от вопроса до измеримого результата.

Хорошо, если есть

Опыт работы с открытыми data-проектами (FineWeb, OLMo, Dolma).

Культура и преимущества

Доступ к одному из крупнейших GPU-кластеров в стране для регулярных экспериментов.
Возможность обучать собственные модели с нуля (текущий масштаб 400–700B, цель 1.5–2T параметров).
Ориентация на Open Source: результаты работы видны мировому сообществу.
Минимум бюрократии и высокая степень ответственности и свободы в исследованиях.
Зрелый технический стек: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Pretrain Data LLM Researcher (AI)

Мэтч & Сопровод

Описание вакансии

TL;DR

Компания

Что делать

Требования

Хорошо, если есть

Культура и преимущества

Похожие вакансии

Senior ML Engineer (Generative AI)

Data Scientist (AI)

Программист-исследователь (AI/LLM)

Senior ML Engineer (Cybersecurity)

ML-разработчик (LLM)

MLOps Engineer (AI)

Разработка

Game Dev

Design и Creative

Аналитика

Менеджмент

People & Business