Не получаете ответ?
Вакансия опубликована 7 дн. назад - шансы на ответ снижаются.
Ml-Инженер (Online Rl) / Post-Training Llm (Ai)
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
TL;DR
Ml-Инженер (Online Rl) / Post-Training Llm (Ai): Разрабатывает и улучшает методы online RL с акцентом на реализацию и доработку подходов post-training и online RL. Фокус на проектировании и проведении экспериментов, а также на построении и развитии инфраструктуры обучения.
Локация: Россия, Удалённо
Salary: 350 000 — 550 000 ₽/мес
Компания
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов.
Что делать
- Разрабатывать и улучшать методы online RL.
- Строить и развивать инфраструктуру обучения.
- Участвовать в проектировании и реализации reward-сигналов.
- Строить и улучшать пайплайны подготовки данных.
- Анализировать ошибки модели, выявлять систематические слабые места и формировать целевые обучающие выборки для их устранения.
- Тесно взаимодействовать с исследователями, другими инженерами, командами данных и инфраструктуры.
Требования
- Отличное владение Python и PyTorch.
- Практический опыт в LLM post-training: RLHF, online RL, DPO или смежных направлениях.
- Опыт проведения ML-экспериментов от начала до конца: постановка гипотезы → реализация → анализ → выводы.
- Понимание distributed training: Data Parallel, FSDP, DeepSpeed или аналоги.
- Умение писать чистый, надёжный, production-ready код.
- Способность разбираться в сложных системах и самостоятельно находить и устранять узкие места.
Хорошо, если есть
- Опыт работы с reward-моделями, process reward models, LLM-as-a-judge.
- Опыт построения сред исполнения, sandboxes и верификаторов для code- или STEM-задач.
- Опыт работы с large-scale inference и оптимизацией генерации (vLLM, Sglang и т.д.).
- Понимание современных open-source стеков для обучения LLM (Verl, Megatron, TRL и др.).
- Публикации, open-source вклад или сильный прикладной track record.
Культура и преимущества
- Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
- Прямое влияние на качество модели: результаты твоей работы видны в бенчмарках и в продукте.
- Команду сильных инженеров и исследователей, у которых есть чему поучиться.
- Возможность совмещать инженерную и исследовательскую работу.
- Конкурентную компенсацию, премии и расширенный соцпакет.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →