ML-инженер (AI Quality / Evaluation)

350 000 - 600 000₽

Формат работы

remote (только Russia)

Тип работы

fulltime

Грейд

senior

Страна

Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:

TL;DR

ML-инженер (AI Quality / Evaluation): Разработка инфраструктуры оценки качества LLM GigaChat с акцентом на бенчмарки, LLM-as-a-Judge и продуктовые датасеты. Фокус на воспроизводимых замерах, research state-of-the-art методов и влиянии на релизы моделей.

Локация: Удалённо из России

Зарплата: 350 000 — 600 000 ₽/мес на руки

Компания

Крупнейший банк России, развивающий русскоязычные LLM в продукте GigaChat.

Что делать

Развивать инфраструктуру и пайплайны замеров (Evaluation Harness): реализация бенчмарков, обеспечение воспроизводимости, интеграция CI/CD.
Строить LLM-as-a-Judge: промпт-инжиниринг, калибровка, arena-style оценки.
Создавать целевые датасеты: дизайн под слабые места модели, анализ пользовательских логов.
Проводить research: отслеживать SOTA в evaluation, готовить отчёты и рекомендации для релизов.

Требования

Расположение: удалённо только из России
Уверенный Python, Git, CI/CD, Bash; инженерная культура (код-ревью, тесты).
Глубокое понимание LLM: chat templates, inference (vLLM, SGLang), методологии бенчмарков.
Насмотренность в research, инициативность, базовая статистика (доверительные интервалы, bootstrap).

Хорошо, если есть

Опыт с evaluation-фреймворками (lm-evaluation-harness, HELM).
LLM-judge (MT-Bench, AlpacaEval, Chatbot Arena).
Публикации или open-source в evaluation.

Культура и преимущества

Сильные задачи на переднем крае русскоязычных LLM.
Высокое влияние на продукт и релизы.
Команда инженеров-исследователей с высокой планкой надёжности.
Конкурентная компенсация, премии, расширенный соцпакет.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

ML-инженер (AI Quality / Evaluation)

Мэтч & Сопровод

Описание вакансии

TL;DR

Компания

Что делать

Требования

Хорошо, если есть

Культура и преимущества

Похожие вакансии

Senior Data Scientist (LLM)

AI Engineer (LLM)

Ml/llm Engineer (Fintech)

Senior AI Developer (Python/JS)

Strong Junior AI/ML Engineer

AI Agent Engineer (AI)

Разработка

Game Dev

Design и Creative

Аналитика

Менеджмент

People & Business