Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
TL;DR
Pretrain Data LLM Researcher (AI): Разработка и оптимизация стратегий сбора и фильтрации данных для обучения фронтирных LLM с акцентом на ablation-эксперименты и синтез данных. Фокус на управлении корпусами в триллионы токенов, применении scaling laws и создании измеримых сигналов качества для роста метрик модели.
Локация: Гибрид, Москва (м. Кутузовская)
Зарплата: 400 000 — 1 000 000 ₽/мес до налогов
Компания
GigaChat — команда, создающая одну из крупнейших в стране LLM с открытым доступом и амбициями достичь мирового уровня.
Что делать
- Проектировать и проводить ablation-эксперименты по подбору смеси данных, фильтрам и порядку обучения.
- Оптимизировать распределение токенов и состав данных, опираясь на scaling laws.
- Курировать корпуса данных масштабом в триллионы токенов: проводить дедупликацию, очистку и фильтрацию.
- Разрабатывать рецепты и генерировать синтетические данные для развития способностей модели в кодинге и рассуждениях.
- Собирать траектории использования инструментов и взаимодействия со средой для agentic-pretrain.
- Развивать систему бенчмарков для точного измерения влияния изменений в данных на качество модели.
Требования
- Сильный опыт проведения контролируемых ML-экспериментов (гипотеза → дизайн → измерение → вывод).
- Уверенное владение Python и опыт обучения моделей на PyTorch или аналогах.
- Теоретическое понимание цикла обучения LLM: токенизация, влияние состава данных, scaling laws.
- Знакомство с распределенной обработкой данных (Spark, Dask, Airflow, Kubernetes).
- Способность самостоятельно вести исследовательское направление от вопроса до измеримого результата.
Хорошо, если есть
- Опыт работы с открытыми data-проектами (FineWeb, OLMo, Dolma).
Культура и преимущества
- Доступ к одному из крупнейших GPU-кластеров в стране для регулярных экспериментов.
- Возможность обучать собственные модели с нуля (текущий масштаб 400–700B, цель 1.5–2T параметров).
- Ориентация на Open Source: результаты работы видны мировому сообществу.
- Минимум бюрократии и высокая степень ответственности и свободы в исследованиях.
- Зрелый технический стек: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →