TL;DR
ML-инженер (Эффективный рантайм и инференс): Оптимизация производительности нейросетевых моделей для продакшн-систем с акцентом на архитектуры GPU и низкоуровневую разработку. Фокус на повышении throughput и снижении latency в задачах NLP, LLM, CV и речи через использование современных фреймворков и инструментов ускорения.
Локация: Москва, Санкт-Петербург или удаленно из РФ
Зарплата: от 250 000 ₽/мес
Компания
Т-Банк — крупнейшая российская онлайн-экосистема финансовых и лайфстайл-услуг с 50 миллионами клиентов.
Что делать
- Оптимизировать производительность моделей машинного обучения для архитектур GPU.
- Работать с современными фреймворками для ускорения вычислений и деплоя нейросетей.
- Разрабатывать производительный низкоуровневый код на C++, оптимизированный под CUDA.
- Внедрять передовые модели в высоконагруженные продукты компании.
- Участвовать в R&D-исследованиях и профильных семинарах команды.
Требования
- Нахождение в РФ (для удаленной работы).
- Опыт разработки ML-моделей на PyTorch, Jax или Tensorflow в продакшене.
- Понимание DL-архитектур и глубокое знание методов оптимизации инференса.
- Опыт работы с TensorRT, TRT-LLM, Triton Inference Server.
- Навыки C++ и понимание высоконагруженных систем будут преимуществом.
Культура и преимущества
- Возможность работы в офисе или удаленно.
- Аккредитованная ИТ-компания со всеми льготами.
- Расширенная программа ДМС со стоматологией.
- Доступ к платформе обучения и менторству «Т-Банк Апгрейд».
- Три дополнительных дня отпуска ежегодно.
- Компенсация участия в топовых профильных конференциях.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →