Руководитель команды CUDA-инференса (Автономный транспорт)
Контакты
Тип работы
fulltime
Грейд
lead
Страна
Russia
aipythonc++pytorchcudatensorrtonnxtritoncutlass
Вакансия из Telegram канала - Название доступно после авторизации
Пожаловаться
85
Хорошая вакансия
развернуть
Роль четко определена с акцентом на CUDA-производительность, а компания предлагает хорошие условия для поддержания баланса между работой и личной жизнью, что делает эту вакансию привлекательной.
Кликните для подробной информации
Четкое определение ролиХороший баланс работы и жизниСовременный стек технологийЗарплата не указана
Оценка от Hirify AI
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
🔍Руководитель команды CUDA-инференса в Автономный транспорт
Основной стек: PyTorch → ONNX → TensorRT, внутренняя инфраструктура профилирования, экспериментов и performance-аналитики. Фокус: как именно выполняются вычисления на GPU и других ускорителях, достижение измеримого ускорения в end-to-end сценариях.
Какие задачи вас ждут:
• Руководство командой CUDA-оптимизации инференса
People management, формирование технических планов и приоритетов, контроль исполнения проектов и ответственность за достижение измеримых результатов по latency, throughput и эффективности использования памяти на целевом железе.
• Проектирование и оптимизация вычислительных ядер
Разработка и оптимизация CUDA-kernel и fusion операций для ключевых блоков моделей (matmul, conv, attention и др.), снижая memory traffic и launch overhead.
• Работа с архитектурой GPU
Эффективное использование memory hierarchy, layout данных, tiling-подходы, tensor cores и механизмы повышения occupancy. Системный анализ bottleneck с помощью Nsight и других профилировщиков и формирование вариантов оптимизаций с учётом ограничений железа.
Мы ждём, что вы:
• Имеете сильный опыт CUDA performance engineering
• Работали с kernel для matmul/conv/attention
• Понимаете memory hierarchy GPU и cost model вычислительных операций
• Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
Будет плюсом, если вы:
• Работали с CUTLASS / Triton / кастомными inference-движками
• Работали с quantization / mixed precision
• Строили roofline-модели или latency/bandwidth-оценки
• Знаете о fusion-подходах и graph-level оптимизациях
Почему у нас хорошо:
Мы предоставляем полный набор, который поможет уберечься от тревожности и выгорания: ежегодные медицинские чекапы, йога и психотерапия. Это не все бонусы — полный список тут.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации