Назад
обновлено 2 часа назад

Senior Data Scientist (NLP, LLM)

Формат работы
remote (только Russia)/hybrid/onsite
Тип работы
fulltime
Грейд
senior
Страна
Russia
Вакансия от Hirify. Размещена напрямую Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера

Мэтч

Покажет вашу совместимость с вакансией

Описание вакансии

TL;DR
Senior Data Scientist (NLP/LLM): проектирование и поддержка полного цикла улучшения медицинских LLM с акцентом на RAG, мультиагентные фреймворки и alignment. Фокус на разработке систем оценивания качества, проведении исследовательских итераций и внедрении LLM-решений в медицинский продакшн.

Senior Data Scientist (NLP, LLM)

Локация: Россия (Москва, офис в БЦ Симонов Плаза)

Зарплата: Обсуждается индивидуально

Задачи:

  • Проектировать и поддерживать полный цикл улучшения медицинских LLM: сбор, очистка, версионирование данных, обучение и дообучение (SFT, preference-tuning, DPO/ORPO, instruction tuning).
  • Строить датасеты и контуры разметки: схемы и гайдлайны, контроль согласованности, генерация синтетических данных, self-training, анализ ошибок и bias.
  • Разрабатывать LLM-based пайплайны и агентов для медицинских задач: RAG по клиническим рекомендациям и справочникам, tool-calling, маршрутизация, multi-step workflows, оркестрация (LangGraph и мультиагентные фреймворки), guardrails.
  • Создавать и развивать систему оценивания: тест-наборы и бенчмарки, автоматические метрики и LLM-as-a-judge там, где уместно, экспертная валидация с врачами, red-teaming, регрессионные прогоны, A/B тестирование в проде.
  • Проводить исследовательские итерации: формулировать гипотезы, ставить эксперименты, делать ablation-исследования, документировать результаты, готовить научные статьи и доводить материалы до публикации.

Обязательные требования:

  • 3+ лет в NLP/ML, уверенный Python: типизация, тестирование, профилирование, аккуратный продакшн-код.
  • Практический опыт обучения и дообучения трансформеров: PyTorch + HuggingFace, понимание Accelerate, DeepSpeed или аналогов.
  • Опыт построения data-pipelines и воспроизводимых экспериментов: датасеты, версии, конфиги, трекинг (MLflow или ClearML), умение делать корректные сравнения.
  • Понимание LLM-систем: retrieval, tool-calling, агенты, деградации качества, галлюцинации, ограничения продакшна.
  • Навыки оценки качества: метрики, бенчмарки, error analysis, ablations, работа с разметкой и экспертной валидацией.
  • Опыт в медицине или биомеде: клинические тексты, ICD-10, клин. рекомендации, понимание доменных рисков.
  • Опыт alignment: preference data, RLHF, DPO, safety eval, hallucination mitigation. Практика продакшн-инференса: vLLM, оптимизация стоимости и задержки, Docker, K8s, мониторинг, трассировка.
  • Опыт с retrieval-стеком: hybrid search, rerankers, FAISS, Elastic, pgvector, продуманное chunking, grounding.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера