Назад
2 дня назад

Lead MLE (RL Efficiency)

650 000 - 850 000
Формат работы
remote (только Russia)
Тип работы
fulltime
Грейд
lead
Английский
b2
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Lead MLE (RL Efficiency): Разработка и оптимизация инфраструктуры обучения RL-контура для GigaChat с акцентом на производительность, масштабируемость и снижение стоимости экспериментов. Фокус на построении эффективных пайплайнов online RL, оптимизации взаимодействия с инференс-движками и руководстве командой инженеров для достижения высокой утилизации кластера.

Локация: Удалённо (только РФ)

Зарплата: 650 000 — 850 000 ₽/мес

Что делать

  • Определять стратегию развития направления RL Efficiency и измерять прогресс оптимизации.
  • Оптимизировать пайплайн online RL, включая генерацию rollout'ов и сбор reward-сигналов.
  • Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движками (vLLM, SGLang).
  • Развивать инфраструктуру обучения для RLHF, RLVR, PPO, GRPO и DPO на масштабе.
  • Писать критически важный код и профилировать обучение на всех уровнях стека.
  • Руководить командой инженеров, задавая стандарты качества и технической надежности.

Требования

  • Отличное владение Python и PyTorch (DDP/FSDP).
  • Практический опыт обучения LLM и понимание RL post-training (RLHF, RLVR, PPO, GRPO, DPO).
  • Опыт оптимизации обучения и инференса LLM (профилирование, параллелизм, mixed precision).
  • Понимание архитектуры Transformer и механизмов attention.
  • Опыт руководства технической командой и готовность лично писать код.
  • Локация: проживание на территории РФ.

Хорошо, если есть

  • Опыт работы с современными RL-стэками (verl, TRL).
  • Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM).
  • Навыки написания CUDA / Triton ядер.
  • Понимание коммуникационного стека (NCCL, NVSHMEM, RDMA/IB).
  • Опыт работы с кластерными системами (Slurm, Kubernetes, Ray).

Культура и преимущества

  • Работа над передовыми русскоязычными LLM.
  • Высокая степень влияния на архитектуру и методы обучения.
  • Команда сильных инженеров и исследователей.
  • Возможность совмещать управление с глубокой технической работой.
  • Конкурентная компенсация, премии и расширенный соцпакет.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →