Назад
6 часов назад

Senior ML Developer (Inference)

410 000 - 680 000
Формат работы
hybrid/onsite
Тип работы
fulltime
Грейд
senior
Английский
b2
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Старший ML-разработчик (Inference): Разработка высокопроизводительной инфраструктуры инференса для больших языковых моделей (LLM) с акцентом на оптимизацию производительности и масштабируемости. Фокус на низкоуровневой оптимизации CUDA/Triton, внедрении передовых техник генерации (speculative decoding, continuous batching) и создании надежных распределенных ML-сервисов.

Локация: Санкт-Петербург (офис или гибрид).

Зарплата: 410 000 — 680 000 руб./мес.

Компания

Yandex Cloud — публичная облачная платформа, предоставляющая масштабируемую инфраструктуру, инструменты машинного обучения и средства разработки для бизнеса и частных разработчиков.

Что делать

  • Оптимизировать производительность (throughput/latency) при генерации LLM с использованием техник speculative decoding и continuous batching.
  • Разрабатывать и развивать распределенные системы инференса моделей, интегрированные с Kubernetes и сервис-мешами.
  • Проводить низкоуровневую оптимизацию вычислений с помощью CUDA/Triton ядер и профилирования GPU-нагрузок.
  • Проектировать API, SDK и инструменты для автоматизации развертывания и обновления моделей в production.

Требования

  • Локация: Санкт-Петербург (офис или гибрид).
  • Глубокое понимание архитектуры трансформеров и LLM-инференса (attention, KV-cache).
  • Опыт оптимизации под GPU (CUDA/Triton, Tensor Cores) и профилирования.
  • Уверенное владение Python и одним из системных языков: C++ или Go.
  • Опыт работы с PyTorch, JAX, TensorRT или аналогичными runtime (vLLM, HuggingFace TGI).
  • Опыт эксплуатации высоконагруженных сервисов (Kubernetes, gRPC).

Хорошо, если есть

  • Практический опыт внедрения speculative decoding, prefix caching или continuous batching.
  • Знание алгоритмов распределенного инференса (tensor/pipeline parallel).
  • Опыт интеграции ML-систем в production-платформу (Envoy, autoscaling).
  • Навыки fine-tuning моделей (LoRA, PEFT).

Культура и преимущества

  • Расширенная медицинская страховка (ДМС) с первого месяца, включая стоматологию и помощь за рубежом.
  • Гибкий график начала и окончания рабочего дня.
  • Льготные жилищные займы для сотрудников.
  • Собственные спортзалы в офисах и корпоративные спортивные клубы.
  • Развитая система обучения: внутренняя платформа, менторство и оплата участия в профильных конференциях.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник - загрузка...