Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
Текст:
TL;DR
Lead MLE (RL Efficiency): Разработка и оптимизация инфраструктуры обучения RL-контура для GigaChat с акцентом на производительность, масштабируемость и снижение стоимости экспериментов. Фокус на построении эффективных пайплайнов online RL, оптимизации взаимодействия с инференс-движками и руководстве командой инженеров для достижения высокой утилизации кластера.
Локация: Удалённо (только РФ)
Зарплата: 650 000 — 850 000 ₽/мес
Что делать
- Определять стратегию развития направления RL Efficiency и измерять прогресс оптимизации.
- Оптимизировать пайплайн online RL, включая генерацию rollout'ов и сбор reward-сигналов.
- Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движками (vLLM, SGLang).
- Развивать инфраструктуру обучения для RLHF, RLVR, PPO, GRPO и DPO на масштабе.
- Писать критически важный код и профилировать обучение на всех уровнях стека.
- Руководить командой инженеров, задавая стандарты качества и технической надежности.
Требования
- Отличное владение Python и PyTorch (DDP/FSDP).
- Практический опыт обучения LLM и понимание RL post-training (RLHF, RLVR, PPO, GRPO, DPO).
- Опыт оптимизации обучения и инференса LLM (профилирование, параллелизм, mixed precision).
- Понимание архитектуры Transformer и механизмов attention.
- Опыт руководства технической командой и готовность лично писать код.
- Локация: проживание на территории РФ.
Хорошо, если есть
- Опыт работы с современными RL-стэками (verl, TRL).
- Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM).
- Навыки написания CUDA / Triton ядер.
- Понимание коммуникационного стека (NCCL, NVSHMEM, RDMA/IB).
- Опыт работы с кластерными системами (Slurm, Kubernetes, Ray).
Культура и преимущества
- Работа над передовыми русскоязычными LLM.
- Высокая степень влияния на архитектуру и методы обучения.
- Команда сильных инженеров и исследователей.
- Возможность совмещать управление с глубокой технической работой.
- Конкурентная компенсация, премии и расширенный соцпакет.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Похожие вакансии
Сбер
20 часов назад
Lead MLE (RL Efficiency)
650 000 - 850 000₽
Sber
2 дня назад
Head of ML Pretrain LLM (AI)
650 000 - 850 000₽
Сбер
4 дня назад
Руководитель команды RnD Data Science (AI)
450 000 - 650 000₽
Сбер
3 минуты назад
Senior Research Engineer (LLM Pretraining)
400 000 - 800 000₽
Green Wave Palace
6 дней назад
Lead Machine Learning Engineer (MLOps)
GNIVC
3 дня назад
Senior ML Engineer (NLP)
400 000 - 500 000₽