обновлено 2 часа назад
Senior Data Scientist (NLP, LLM)
Мэтч
Покажет вашу совместимость с вакансией
Описание вакансии
TL;DR
Senior Data Scientist (NLP/LLM): проектирование и поддержка полного цикла улучшения медицинских LLM с акцентом на RAG, мультиагентные фреймворки и alignment. Фокус на разработке систем оценивания качества, проведении исследовательских итераций и внедрении LLM-решений в медицинский продакшн.
Senior Data Scientist (NLP, LLM)
Локация: Россия (Москва, офис в БЦ Симонов Плаза)
Зарплата: Обсуждается индивидуально
Задачи:
- Проектировать и поддерживать полный цикл улучшения медицинских LLM: сбор, очистка, версионирование данных, обучение и дообучение (SFT, preference-tuning, DPO/ORPO, instruction tuning).
- Строить датасеты и контуры разметки: схемы и гайдлайны, контроль согласованности, генерация синтетических данных, self-training, анализ ошибок и bias.
- Разрабатывать LLM-based пайплайны и агентов для медицинских задач: RAG по клиническим рекомендациям и справочникам, tool-calling, маршрутизация, multi-step workflows, оркестрация (LangGraph и мультиагентные фреймворки), guardrails.
- Создавать и развивать систему оценивания: тест-наборы и бенчмарки, автоматические метрики и LLM-as-a-judge там, где уместно, экспертная валидация с врачами, red-teaming, регрессионные прогоны, A/B тестирование в проде.
- Проводить исследовательские итерации: формулировать гипотезы, ставить эксперименты, делать ablation-исследования, документировать результаты, готовить научные статьи и доводить материалы до публикации.
Обязательные требования:
- 3+ лет в NLP/ML, уверенный Python: типизация, тестирование, профилирование, аккуратный продакшн-код.
- Практический опыт обучения и дообучения трансформеров: PyTorch + HuggingFace, понимание Accelerate, DeepSpeed или аналогов.
- Опыт построения data-pipelines и воспроизводимых экспериментов: датасеты, версии, конфиги, трекинг (MLflow или ClearML), умение делать корректные сравнения.
- Понимание LLM-систем: retrieval, tool-calling, агенты, деградации качества, галлюцинации, ограничения продакшна.
- Навыки оценки качества: метрики, бенчмарки, error analysis, ablations, работа с разметкой и экспертной валидацией.
- Опыт в медицине или биомеде: клинические тексты, ICD-10, клин. рекомендации, понимание доменных рисков.
- Опыт alignment: preference data, RLHF, DPO, safety eval, hallucination mitigation. Практика продакшн-инференса: vLLM, оптимизация стоимости и задержки, Docker, K8s, мониторинг, трассировка.
- Опыт с retrieval-стеком: hybrid search, rerankers, FAISS, Elastic, pgvector, продуманное chunking, grounding.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера
Похожие вакансии
23 часа назад
Senior ML Developer (HealthTech)
IT-центр МГТУ им. Н.Э. Баумана
7 дней назад
Lead Data Scientist (LLM)
М Тех
5 дней назад
Senior Data Scientist (Python)
Omega Solutions
5 дней назад
ML Разработчик (Medtech)
400 000 - 450 000₽
Algonova
5 дней назад
Senior AI/ML Engineer (EdTech)
Quickly Search
47 минут назад
Senior Data Scientist (Fintech)
350 000 - 400 000₽