Назад

Не получаете ответ?

Вакансия опубликована 7 дн. назад - шансы на ответ снижаются.

8 дней назад

Ml-Инженер (Online Rl) / Post-Training Llm (Ai)

350 000 - 550 000
Формат работы
remote (только Russia)
Тип работы
fulltime
Грейд
senior
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Ml-Инженер (Online Rl) / Post-Training Llm (Ai): Разрабатывает и улучшает методы online RL с акцентом на реализацию и доработку подходов post-training и online RL. Фокус на проектировании и проведении экспериментов, а также на построении и развитии инфраструктуры обучения.

Локация: Россия, Удалённо

Salary: 350 000 —‍ 550 000 ₽/‍мес

Компания

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов.

Что делать

  • Разрабатывать и улучшать методы online RL.
  • Строить и развивать инфраструктуру обучения.
  • Участвовать в проектировании и реализации reward-сигналов.
  • Строить и улучшать пайплайны подготовки данных.
  • Анализировать ошибки модели, выявлять систематические слабые места и формировать целевые обучающие выборки для их устранения.
  • Тесно взаимодействовать с исследователями, другими инженерами, командами данных и инфраструктуры.

Требования

  • Отличное владение Python и PyTorch.
  • Практический опыт в LLM post-training: RLHF, online RL, DPO или смежных направлениях.
  • Опыт проведения ML-экспериментов от начала до конца: постановка гипотезы → реализация → анализ → выводы.
  • Понимание distributed training: Data Parallel, FSDP, DeepSpeed или аналоги.
  • Умение писать чистый, надёжный, production-ready код.
  • Способность разбираться в сложных системах и самостоятельно находить и устранять узкие места.

Хорошо, если есть

  • Опыт работы с reward-моделями, process reward models, LLM-as-a-judge.
  • Опыт построения сред исполнения, sandboxes и верификаторов для code- или STEM-задач.
  • Опыт работы с large-scale inference и оптимизацией генерации (vLLM, Sglang и т.д.).
  • Понимание современных open-source стеков для обучения LLM (Verl, Megatron, TRL и др.).
  • Публикации, open-source вклад или сильный прикладной track record.

Культура и преимущества

  • Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
  • Прямое влияние на качество модели: результаты твоей работы видны в бенчмарках и в продукте.
  • Команду сильных инженеров и исследователей, у которых есть чему поучиться.
  • Возможность совмещать инженерную и исследовательскую работу.
  • Конкурентную компенсацию, премии и расширенный соцпакет.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →