Lead AI Engineer (Online RL / Post-Training LLM)
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
TL;DR
Lead AI Engineer (Online RL / Post-Training LLM): Разработка и оптимизация методов обучения LLM с акцентом на Online RL и post-training для улучшения качества ответов GigaChat. Фокус на построении пайплайнов данных, обучении reward-моделей и руководстве технической командой для достижения высокого уровня следования инструкциям.
Локация: Удалённо (только из РФ)
Зарплата: 650 000 — 850 000 ₽/мес
Компания
Сбер — крупнейший банк в России и один из ведущих международных финансовых институтов, активно развивающий передовые технологии в области искусственного интеллекта.
Что делать
- Определять стратегию развития направления Online RL для general-сценариев.
- Разрабатывать и улучшать методы post-training и обучения reward-моделей.
- Самостоятельно писать ключевой код пайплайнов обучения и инфраструктуры экспериментов.
- Организовывать сбор и подготовку качественных данных для обучения моделей.
- Руководить командой исследователей и инженеров, задавая высокие стандарты качества.
- Трансформировать абстрактные требования к качеству модели в измеримые метрики и эксперименты.
Требования
- Отличное владение Python и PyTorch.
- Практический опыт в LLM post-training (RLHF, online RL).
- Опыт руководства сильной технической командой.
- Готовность лично писать важные части системы.
- Опыт построения пайплайнов данных.
- Умение проектировать эксперименты и принимать решения на основе данных.
Хорошо, если есть
- Опыт обучения reward-моделей или judge-моделей.
- Опыт работы с human feedback и quality annotation pipelines.
- Опыт работы с distributed training или large-scale inference.
- Публикации или вклад в open-source проекты.
Культура и преимущества
- Работа над передовыми русскоязычными LLM.
- Высокая степень влияния на архитектуру и методы обучения.
- Конкурентная компенсация, годовой бонус и расширенный соцпакет.
- Возможность совмещать управление с глубокой технической работой.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →