Назад
обновлено 21 час назад

Senior ML Engineer (LLM/RL)

Формат работы
onsite
Тип работы
fulltime
Грейд
senior
Английский
b2
Страна
UAE
Релокация
UAE
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Senior Machine Learning Engineer - LLM/RL

Компания является end-to-end фармацевтической/биотехнологической, работающей на основе искусственного интеллекта. Ключевая миссия — ускорять открытие и разработку новых лекарств, используя быстро развивающуюся, собственную платформу и модели в областях биологии, химии и клинических исследований. В настоящий момент я в поиске Senior ML Engineer'а (LLM/RL) для создания и масштабирования GenAI-моделей в рамках задач области молекулярного дизайна.

Формат/локация: офис в Абу-Даби (обязательная релокация после испытательного периода). Важен опыт/возможность коммуницировать на английском, так как команда англоговорящая.

Обязанности
- разрабатывать и масштабировать процессы тонкой настройки (fine-tuning) больших языковых моделей (LLM) с помощью обучения с подкреплением, включая такие методы, как RLVR/RLHF
- создавать и оптимизировать высокопроизводительные конвейеры обучения трансформеров в средах с несколькими GPU и узлами (multi-GPU, multi-node)
- адаптировать модели для решения специфических задач в области дизайна молекул и разработки лекарств, таких как генерация молекул и предсказание их свойств
- руководить планированием экспериментов, отслеживать ключевые метрики, а также представлять результаты и выводы в виде презентаций и/или публикаций

Требования
- Магистр наук (M.S.), кандидат наук (Ph.D.) или эквивалентный опыт в области компьютерных наук, машинного обучения, вычислительной химии или другой смежной количественной дисциплины
- Не менее пяти лет опыта в инженерии машинного обучения
- Глубокие знания в области обучения и развертывания больших моделей-трансформеров с использованием PyTorch
- Практический опыт работы с такими методами, как PPO/DPO/RLOO/GRPO, и другими related policy gradient and preference-based optimization методами оптимизации на основе предпочтений и градиента политики
- Владение техниками параллелизма данных, моделей, контекста и конвейера (data, model, context, and pipeline parallelism)
- Практический опыт разработки разнообразных функций вознаграждения (reward functions) и моделей вознаграждения (reward models)
- Отличное знание Python, а также опыт использования Hugging Face Transformers, TRL/RLlib/verl, DeepSpeed, vLLM, Docker, Sagemaker и процессов CI/CD

Будет плюсом
- Не менее двух лет на позиции старшего специалиста
- Владение математическими пакетами: MATLAB, MATHCAD, MATEMATICA
- Бэкграунд в области химии, хемоинформатики, структурной биологии или опыт работы с генеративными моделями для молекул
- Знание диффузионных моделей, flow-based моделей и других генеративных моделей
- Наличие публикаций в области машинного обучения

Дополнительная информация
Офис в Абу-Даби (обязательная релокация после испытательного периода). Компания работает в фармацевтической/биотехнологической сфере с использованием искусственного интеллекта для разработки лекарств.

Контактная информация:
если есть попадание или вы знаете того, кто может иметь необходимый опыт и сферу интересов - пожалуйста, присылайте CV и контакты мне в тг :)

Будьте осторожны: если вас просят войти в iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -