Эта вакансия в архиве

Посмотреть похожие вакансии ↓
15 часов назад

Senior RL Engineer (AI)

500 000
Формат работы
hybrid/onsite
Тип работы
fulltime
Грейд
senior
Страна
Russia

Описание вакансии

Текст:
/

TL;DR

Senior RL Engineer (AI): Разработка и оптимизация RL-подходов для обучения VLM/LLM-моделей с акцентом на проектирование reward-функций и масштабирование пайплайнов обучения. Фокус на внедрении современных алгоритмов (RLHF, GRPO, PPO), улучшении reasoning-качества и переносе исследовательских решений в продакшн.

Локация: Москва (офис или гибрид)

Зарплата: от 500 000 ₽/мес (до налогов)

Компания

Sber (GigaChat Vision) — команда, занимающаяся полным циклом обучения VLM-моделей в рамках крупнейшего DS&AI сообщества банка.

Что делать

  • Разрабатывать и улучшать RL-подходы для VLM/LLM, включая выбор алгоритмов и анализ экспериментов.
  • Проектировать reward-функции и пайплайны обучения, влияя на итоговые метрики качества.
  • Формировать требования к данным, участвуя в сборе, фильтрации и подготовке датасетов.
  • Развивать систему оценки reasoning-качества и внедрять новые метрики в eval-фреймворк.
  • Обеспечивать согласованность решений с командами Pretrain, SFT и Infra для переноса экспериментов в продакшн.
  • Исследовать актуальные научные статьи и реализовывать их в виде инженерных решений.

Требования

  • Глубокое понимание и практический опыт применения RL для LLM/VLM (RLHF, GRPO, PPO).
  • Понимание полного цикла обучения VLM/LLM: pretrain → SFT → RL.
  • Опыт работы с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками.
  • Сильный опыт постановки, проведения и глубокого анализа RL-экспериментов.
  • Способность самостоятельно двигать сложные технические задачи в условиях неопределённости.
  • Системное мышление: от дизайна reward-функций до продакшн-метрик.

Хорошо, если есть

  • Опыт менторства или технического лидерства в проектах.
  • Публикации или вклад в open-source в области RL/LLM/VLM.
  • Опыт вывода RL-обученных моделей в продакшн и контроля их качества.

Культура и преимущества

  • Доступ к сообществу из более чем 600 DS-специалистов и дайджестам мировых конференций.
  • Возможность быть соавтором научных статей и НИРов для международных конференций.
  • Выбор удобного формата работы: гибрид или офис.
  • Ежегодный пересмотр зарплаты и годовая премия.
  • Расширенный ДМС, льготная ипотека (до 7%) и корпоративная пенсионная программа.
  • Доступ к 400+ образовательным программам СберУниверситета.

Процесс найма

  • Первичный этап: интервью с AI-рекрутером (ГигаРекрутер) в Telegram (около 10 минут).
  • Последующие этапы согласовываются индивидуально.