Вакансия из Telegram канала - Название доступно после авторизации
Пожаловаться
Зарплата и рынок
ЗП не указана
На похожих ролях по рынку
$2.5к$4кмедиана$6к
34 в выборке
На международном рынке: $150к/год ($82к - $210к)
92
Крутая вакансия
развернуть
Работа над ядром рассуждений YandexGPT с использованием SOTA RL-методов — это топовая возможность для AI-инженера напрямую повлиять на продукт с огромной аудиторией.
Кликните для подробной информации
Зарплата не указанаПередовой стекТрендовый доменОгромный импактПонятный скоуп
Оценка от Hirify AI
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
❣️Старший LLM-разработчик в команду рассуждений YandexGPT
Наша команда улучшает способности к рассуждениям семейства моделей Alice AI LLM. Мы стремимся создать единую модель, объединяющую сильные стороны рассуждений, использование внешних функций и поисковые возможности наших сервисов.
Какие задачи вас ждут:
• Развитие базовых reasoning-способностей YandexGPT Ближайшая цель — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления паттернов (backtracking, верификация) на задачах разной тематики.
• Объединение сигналов в общей модели Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели.
• Эксперименты с RL-алгоритмами Вы будете искать SOTA-подходы, которые приносят пользу реальному продукту: экспериментировать с RL‑алгоритмами, тестировать методы стабилизации обучения Dense‑ и MoE‑архитектур.
Мы ждём, что вы: • Отлично разбираетесь в NLP и классическом ML
• Владеете Python
• Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
Наши бонусы: Мы заботимся о детях яндексоидов и устраиваем детские дни в офисе. Это не все бонусы — .
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации