Назад
4 часа назад

Pretrain Data LLM Researcher (AI)

400 000 - 1 000 000
Формат работы
hybrid
Тип работы
fulltime
Грейд
middle/senior
Английский
b2
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Pretrain Data LLM Researcher (AI): Разработка и оптимизация стратегий сбора и фильтрации данных для обучения фронтирных LLM с акцентом на ablation-эксперименты и синтез данных. Фокус на управлении корпусами в триллионы токенов, применении scaling laws и создании измеримых сигналов качества для роста метрик модели.

Локация: Гибрид, Москва (м. Кутузовская)

Зарплата: 400 000 — 1 000 000 ₽/мес до налогов

Компания

GigaChat — команда, создающая одну из крупнейших в стране LLM с открытым доступом и амбициями достичь мирового уровня.

Что делать

  • Проектировать и проводить ablation-эксперименты по подбору смеси данных, фильтрам и порядку обучения.
  • Оптимизировать распределение токенов и состав данных, опираясь на scaling laws.
  • Курировать корпуса данных масштабом в триллионы токенов: проводить дедупликацию, очистку и фильтрацию.
  • Разрабатывать рецепты и генерировать синтетические данные для развития способностей модели в кодинге и рассуждениях.
  • Собирать траектории использования инструментов и взаимодействия со средой для agentic-pretrain.
  • Развивать систему бенчмарков для точного измерения влияния изменений в данных на качество модели.

Требования

  • Сильный опыт проведения контролируемых ML-экспериментов (гипотеза → дизайн → измерение → вывод).
  • Уверенное владение Python и опыт обучения моделей на PyTorch или аналогах.
  • Теоретическое понимание цикла обучения LLM: токенизация, влияние состава данных, scaling laws.
  • Знакомство с распределенной обработкой данных (Spark, Dask, Airflow, Kubernetes).
  • Способность самостоятельно вести исследовательское направление от вопроса до измеримого результата.

Хорошо, если есть

  • Опыт работы с открытыми data-проектами (FineWeb, OLMo, Dolma).

Культура и преимущества

  • Доступ к одному из крупнейших GPU-кластеров в стране для регулярных экспериментов.
  • Возможность обучать собственные модели с нуля (текущий масштаб 400–700B, цель 1.5–2T параметров).
  • Ориентация на Open Source: результаты работы видны мировому сообществу.
  • Минимум бюрократии и высокая степень ответственности и свободы в исследованиях.
  • Зрелый технический стек: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →