2 дня назад

Lead MLE (RL Efficiency)

650 000 - 850 000₽

Формат работы

remote (только Russia)

Тип работы

fulltime

Грейд

lead

Английский

Страна

Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:

TL;DR

Lead MLE (RL Efficiency): Разработка и оптимизация инфраструктуры обучения RL-контура для GigaChat с акцентом на производительность, масштабируемость и снижение стоимости экспериментов. Фокус на построении эффективных пайплайнов online RL, оптимизации взаимодействия с инференс-движками и руководстве командой инженеров для достижения высокой утилизации кластера.

Локация: Удалённо (только РФ)

Зарплата: 650 000 — 850 000 ₽/мес

Что делать

Определять стратегию развития направления RL Efficiency и измерять прогресс оптимизации.
Оптимизировать пайплайн online RL, включая генерацию rollout'ов и сбор reward-сигналов.
Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движками (vLLM, SGLang).
Развивать инфраструктуру обучения для RLHF, RLVR, PPO, GRPO и DPO на масштабе.
Писать критически важный код и профилировать обучение на всех уровнях стека.
Руководить командой инженеров, задавая стандарты качества и технической надежности.

Требования

Отличное владение Python и PyTorch (DDP/FSDP).
Практический опыт обучения LLM и понимание RL post-training (RLHF, RLVR, PPO, GRPO, DPO).
Опыт оптимизации обучения и инференса LLM (профилирование, параллелизм, mixed precision).
Понимание архитектуры Transformer и механизмов attention.
Опыт руководства технической командой и готовность лично писать код.
Локация: проживание на территории РФ.

Хорошо, если есть

Опыт работы с современными RL-стэками (verl, TRL).
Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM).
Навыки написания CUDA / Triton ядер.
Понимание коммуникационного стека (NCCL, NVSHMEM, RDMA/IB).
Опыт работы с кластерными системами (Slurm, Kubernetes, Ray).

Культура и преимущества

Работа над передовыми русскоязычными LLM.
Высокая степень влияния на архитектуру и методы обучения.
Команда сильных инженеров и исследователей.
Возможность совмещать управление с глубокой технической работой.
Конкурентная компенсация, премии и расширенный соцпакет.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →