Эта вакансия в архиве
Посмотреть похожие вакансии ↓Описание вакансии
Текст:
TL;DR
Senior RL Engineer (AI): Разработка и оптимизация RL-подходов для обучения VLM/LLM-моделей с акцентом на проектирование reward-функций и масштабирование пайплайнов обучения. Фокус на внедрении современных алгоритмов (RLHF, GRPO, PPO), улучшении reasoning-качества и переносе исследовательских решений в продакшн.
Локация: Москва (офис или гибрид)
Зарплата: от 500 000 ₽/мес (до налогов)
Компания
Sber (GigaChat Vision) — команда, занимающаяся полным циклом обучения VLM-моделей в рамках крупнейшего DS&AI сообщества банка.
Что делать
- Разрабатывать и улучшать RL-подходы для VLM/LLM, включая выбор алгоритмов и анализ экспериментов.
- Проектировать reward-функции и пайплайны обучения, влияя на итоговые метрики качества.
- Формировать требования к данным, участвуя в сборе, фильтрации и подготовке датасетов.
- Развивать систему оценки reasoning-качества и внедрять новые метрики в eval-фреймворк.
- Обеспечивать согласованность решений с командами Pretrain, SFT и Infra для переноса экспериментов в продакшн.
- Исследовать актуальные научные статьи и реализовывать их в виде инженерных решений.
Требования
- Глубокое понимание и практический опыт применения RL для LLM/VLM (RLHF, GRPO, PPO).
- Понимание полного цикла обучения VLM/LLM: pretrain → SFT → RL.
- Опыт работы с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками.
- Сильный опыт постановки, проведения и глубокого анализа RL-экспериментов.
- Способность самостоятельно двигать сложные технические задачи в условиях неопределённости.
- Системное мышление: от дизайна reward-функций до продакшн-метрик.
Хорошо, если есть
- Опыт менторства или технического лидерства в проектах.
- Публикации или вклад в open-source в области RL/LLM/VLM.
- Опыт вывода RL-обученных моделей в продакшн и контроля их качества.
Культура и преимущества
- Доступ к сообществу из более чем 600 DS-специалистов и дайджестам мировых конференций.
- Возможность быть соавтором научных статей и НИРов для международных конференций.
- Выбор удобного формата работы: гибрид или офис.
- Ежегодный пересмотр зарплаты и годовая премия.
- Расширенный ДМС, льготная ипотека (до 7%) и корпоративная пенсионная программа.
- Доступ к 400+ образовательным программам СберУниверситета.
Процесс найма
- Первичный этап: интервью с AI-рекрутером (ГигаРекрутер) в Telegram (около 10 минут).
- Последующие этапы согласовываются индивидуально.
Похожие вакансии
Quickly Search
2 дня назад
Senior Data Scientist (Fintech)
350 000 - 400 000₽
8 часов назад
Senior Data Scientist (NLP, LLM)
Yandex
5 дней назад
ML Developer (AI)
4 дня назад
Senior ML Developer (HealthTech)
VK
11 часов назад
Старший разработчик-исследователь (AI/ML)
NDA
13 часов назад
Senior Data Engineer (Fintech)
300 000₽