Senior RL Engineer (AI)

500 000₽

Формат работы

hybrid/onsite

Тип работы

fulltime

Грейд

senior

Страна

Russia

Описание вакансии

Текст:

TL;DR

Senior RL Engineer (AI): Разработка и оптимизация RL-подходов для обучения VLM/LLM-моделей с акцентом на проектирование reward-функций и масштабирование пайплайнов обучения. Фокус на внедрении современных алгоритмов (RLHF, GRPO, PPO), улучшении reasoning-качества и переносе исследовательских решений в продакшн.

Локация: Москва (офис или гибрид)

Зарплата: от 500 000 ₽/мес (до налогов)

Компания

Sber (GigaChat Vision) — команда, занимающаяся полным циклом обучения VLM-моделей в рамках крупнейшего DS&AI сообщества банка.

Что делать

Разрабатывать и улучшать RL-подходы для VLM/LLM, включая выбор алгоритмов и анализ экспериментов.
Проектировать reward-функции и пайплайны обучения, влияя на итоговые метрики качества.
Формировать требования к данным, участвуя в сборе, фильтрации и подготовке датасетов.
Развивать систему оценки reasoning-качества и внедрять новые метрики в eval-фреймворк.
Обеспечивать согласованность решений с командами Pretrain, SFT и Infra для переноса экспериментов в продакшн.
Исследовать актуальные научные статьи и реализовывать их в виде инженерных решений.

Требования

Глубокое понимание и практический опыт применения RL для LLM/VLM (RLHF, GRPO, PPO).
Понимание полного цикла обучения VLM/LLM: pretrain → SFT → RL.
Опыт работы с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками.
Сильный опыт постановки, проведения и глубокого анализа RL-экспериментов.
Способность самостоятельно двигать сложные технические задачи в условиях неопределённости.
Системное мышление: от дизайна reward-функций до продакшн-метрик.

Хорошо, если есть

Опыт менторства или технического лидерства в проектах.
Публикации или вклад в open-source в области RL/LLM/VLM.
Опыт вывода RL-обученных моделей в продакшн и контроля их качества.

Культура и преимущества

Доступ к сообществу из более чем 600 DS-специалистов и дайджестам мировых конференций.
Возможность быть соавтором научных статей и НИРов для международных конференций.
Выбор удобного формата работы: гибрид или офис.
Ежегодный пересмотр зарплаты и годовая премия.
Расширенный ДМС, льготная ипотека (до 7%) и корпоративная пенсионная программа.
Доступ к 400+ образовательным программам СберУниверситета.

Процесс найма

Первичный этап: интервью с AI-рекрутером (ГигаРекрутер) в Telegram (около 10 минут).
Последующие этапы согласовываются индивидуально.

Senior RL Engineer (AI)

Описание вакансии

TL;DR

Компания

Что делать

Требования

Хорошо, если есть

Культура и преимущества

Процесс найма

Похожие вакансии

Senior Data Scientist (Fintech)

Senior Data Scientist (NLP, LLM)

ML Developer (AI)

Senior ML Developer (HealthTech)

Старший разработчик-исследователь (AI/ML)

Senior Data Engineer (Fintech)

Разработка

Game Dev

Design и Creative

Аналитика

Менеджмент

People & Business