TL;DR
Старший ML-разработчик (Inference): Разработка высокопроизводительной инфраструктуры инференса для больших языковых моделей (LLM) с акцентом на оптимизацию производительности и масштабируемости. Фокус на низкоуровневой оптимизации CUDA/Triton, внедрении передовых техник генерации (speculative decoding, continuous batching) и создании надежных распределенных ML-сервисов.
Локация: Санкт-Петербург (офис или гибрид).
Зарплата: 410 000 — 680 000 руб./мес.
Компания
Yandex Cloud — публичная облачная платформа, предоставляющая масштабируемую инфраструктуру, инструменты машинного обучения и средства разработки для бизнеса и частных разработчиков.
Что делать
- Оптимизировать производительность (throughput/latency) при генерации LLM с использованием техник speculative decoding и continuous batching.
- Разрабатывать и развивать распределенные системы инференса моделей, интегрированные с Kubernetes и сервис-мешами.
- Проводить низкоуровневую оптимизацию вычислений с помощью CUDA/Triton ядер и профилирования GPU-нагрузок.
- Проектировать API, SDK и инструменты для автоматизации развертывания и обновления моделей в production.
Требования
- Локация: Санкт-Петербург (офис или гибрид).
- Глубокое понимание архитектуры трансформеров и LLM-инференса (attention, KV-cache).
- Опыт оптимизации под GPU (CUDA/Triton, Tensor Cores) и профилирования.
- Уверенное владение Python и одним из системных языков: C++ или Go.
- Опыт работы с PyTorch, JAX, TensorRT или аналогичными runtime (vLLM, HuggingFace TGI).
- Опыт эксплуатации высоконагруженных сервисов (Kubernetes, gRPC).
Хорошо, если есть
- Практический опыт внедрения speculative decoding, prefix caching или continuous batching.
- Знание алгоритмов распределенного инференса (tensor/pipeline parallel).
- Опыт интеграции ML-систем в production-платформу (Envoy, autoscaling).
- Навыки fine-tuning моделей (LoRA, PEFT).
Культура и преимущества
- Расширенная медицинская страховка (ДМС) с первого месяца, включая стоматологию и помощь за рубежом.
- Гибкий график начала и окончания рабочего дня.
- Льготные жилищные займы для сотрудников.
- Собственные спортзалы в офисах и корпоративные спортивные клубы.
- Развитая система обучения: внутренняя платформа, менторство и оплата участия в профильных конференциях.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →