Назад
4 дня назад

ML Engineer (Alice AI LLM)

Формат работы
hybrid
Тип работы
fulltime
Грейд
middle/senior
Страна
Russia
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

❣️ ML-разработчик в команду инфраструктуры претрейна Alice AI LLM

Мы занимаемся претрейном Alice AI LLM (ранее — YandexGPT) уже 5 лет.

За это время наша команда:
• Обучила большую часть языковых моделей, которые используются в Яндексе
• Разработала фреймворк для распределённого обучения больших языковых моделей
• Разработала технологию YaFSDP, которая ускоряет обучение моделей с 70 млрд параметров на 20–50%
• Разработала фреймворк YCCL, который даёт кратный прирост по скорости коммуникаций в наших обучениях
• Сэкономила тысячи GPU на инференсе моделей за счёт оптимизаций и помощи другим командам
Мы ищем опытных инфраструктурных и DL-инженеров для работы в команде инфраструктуры претрейна YandexGPT.

Какие задачи вас ждут:

• Оптимизация обучений в контексте RL
В современных открытых решениях использование GPU не превышает 10%, что крайне неэффективно. Вам предстоит ускорить обучение в этой схеме.

• Построение более эффективных схем коммуникаций
Комбинация YaFSDP + YCCL + FP8 позволяет обучать модели, имеющие сотни миллиардов параметров, с максимальной производительностью. Но для больших моделей требуются более сложные схемы: Pipeline Parallelism, продвинутый Expert Parallelism, Context Parallelism.

• Выполнение низкоуровневых оптимизаций
Мы стремимся к тому, чтобы тензорные ядра были нагружены по максимуму. Вы будете проводить нетривиальные оптимизации на низком уровне с написанием кода на Triton, CUDA или CuTe DSL.

Мы ждём, что вы:
• Работали с современными LLM, понимаете их архитектуру
• Пишете на Python, имеете опыт разработки на Torch
• Знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации
• Понимаете основы распределённого обучения; знаете, почему FSDP лучше DDP, как используется FP8 в обучении и что лучше: TP или EP

Почему у нас хорошо:
Нам важно здоровье сотрудников, поэтому в крупных офисах у нас есть спортзалы — с тренажёрами, инвентарём и душевыми. Это не все бонусы — .

📩 на нашем сайте

#aliceai #ML #LLM #python #torch #triton #CUDA #гибрид

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -