Назад
обновлено 5 дней назад

Lead AI Engineer (Online RL / Post-Training LLM)

650 000 - 850 000
Формат работы
remote (только Russia)
Тип работы
fulltime
Грейд
lead
Английский
b2
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Lead AI Engineer (Online RL / Post-Training LLM): Разработка и оптимизация методов обучения LLM с акцентом на Online RL и post-training для улучшения качества ответов GigaChat. Фокус на построении пайплайнов данных, обучении reward-моделей и руководстве технической командой для достижения высокого уровня следования инструкциям.

Локация: Удалённо (только из РФ)

Зарплата: 650 000 — 850 000 ₽/мес

Компания

Сбер — крупнейший банк в России и один из ведущих международных финансовых институтов, активно развивающий передовые технологии в области искусственного интеллекта.

Что делать

  • Определять стратегию развития направления Online RL для general-сценариев.
  • Разрабатывать и улучшать методы post-training и обучения reward-моделей.
  • Самостоятельно писать ключевой код пайплайнов обучения и инфраструктуры экспериментов.
  • Организовывать сбор и подготовку качественных данных для обучения моделей.
  • Руководить командой исследователей и инженеров, задавая высокие стандарты качества.
  • Трансформировать абстрактные требования к качеству модели в измеримые метрики и эксперименты.

Требования

  • Отличное владение Python и PyTorch.
  • Практический опыт в LLM post-training (RLHF, online RL).
  • Опыт руководства сильной технической командой.
  • Готовность лично писать важные части системы.
  • Опыт построения пайплайнов данных.
  • Умение проектировать эксперименты и принимать решения на основе данных.

Хорошо, если есть

  • Опыт обучения reward-моделей или judge-моделей.
  • Опыт работы с human feedback и quality annotation pipelines.
  • Опыт работы с distributed training или large-scale inference.
  • Публикации или вклад в open-source проекты.

Культура и преимущества

  • Работа над передовыми русскоязычными LLM.
  • Высокая степень влияния на архитектуру и методы обучения.
  • Конкурентная компенсация, годовой бонус и расширенный соцпакет.
  • Возможность совмещать управление с глубокой технической работой.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →