TL;DR
Разработчик инфраструктуры RL-обучения LLM (AI): Создание инфраструктуры для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, используемых в сервисах Яндекса, с акцентом на рациональное использование вычислительных ресурсов и минимизацию рисков сбоев. Фокус на оптимизации сложных распределённых систем для отказоустойчивости, эффективной доставки данных и минимизации задержек в коммуникациях.
Локация: Офис или гибридный формат в одном из городов: Москва, Санкт-Петербург, Екатеринбург, Новосибирск, Казань, Нижний Новгород
Salary: 250 000 – 500 000 ₽/мес на руки
Компания
Яндекс — одна из крупнейших ИТ-компаний в России, разрабатывающая популярные поисковые системы и широкий спектр сервисов для повседневной жизни и бизнеса.
Что делать
- Оптимизировать инфраструктуру RL-обучения, улучшая доставку, сохранение данных и коммуникации между блоками.
- Развивать инструменты диагностики для быстрого выявления и устранения инфраструктурных проблем.
- Повышать отказоустойчивость инфраструктуры обучения к различным ошибкам и сбоям.
- Исследовать и внедрять современные решения для организации инфраструктуры RL-обучения.
Требования
- Знание Python и опыт системного программирования, разработки библиотек или фреймворков.
- Практический опыт с PyTorch и распределённым обучением через torch.distributed.
- Владение подходами параллелизации: data parallelism, tensor parallelism, pipeline parallelism, expert parallelism.
- Интерес к LLM и MLOps, понимание задач эксплуатации больших моделей в продакшне.
- Умение эффективно работать в команде и делиться знаниями.
- Формат работы: Офис или гибридный в России (Москва, Санкт-Петербург, Екатеринбург, Новосибирск, Казань, Нижний Новгород)
Хорошо, если есть
- Участие в создании инфраструктуры обучения ML-моделей.
- Внедрение и оптимизация RL-решений.
- Работа с библиотеками RL-обучения для LLM (veRL, slime, NeMo-RL, SkyRL) или инференса (vLLM, SGLang, TRTLLM).
- Владение C++ и опыт низкоуровневого программирования и оптимизации.
- Опыт с GPU NVIDIA, понимание архитектуры GPU, разработка/оптимизация алгоритмов с CUDA или Triton.
Культура и преимущества
- Высокий совокупный доход с полугодовыми премиями.
- Офисы с комфортными рабочими зонами, местами для отдыха и тренажёрными залами.
- Расширенная медицинская страховка с первого месяца (включая стоматологию, психотерапию, телемедицину, и покрытие для семьи).
- Возможности для обучения: внутренняя платформа с курсами, менторство, оплата профильных конференций и частичная оплата обучения иностранным языкам.
- Закрытые корпоративные мероприятия и спортивные клубы.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →