Назад
4 часа назад

RL Environments Engineer

8 000 - 24 000$
Формат работы
remote
Тип работы
fulltime
Английский
c1
Страна
Russia
Релокация
US
vacancy_detail.hirify_telegram_tooltipВакансия из Telegram канала -

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

tl;dr: RL environments engineer, $50-150/hour, part-time/full-time, remote

У нас тут новые клиенты — нам кажется, идеальные, а вот вы скажите, что думаете!

Смотрите сами:
💫 $16M инвестиций от Andreessen Horowitz и SignalFire;
😍 работают с Anthropic и другими топовыми лабами;
🌼 female-led! Одна фаундерка — ранняя сотрудница Anthropic, вторая — ещё более ранняя из DatologyAI, стартапа про data curation;
🗓 удалёнка с почасовой оплатой и возможностью парттайма;
ищут не одного человека, а сразу много — можно наконец и самому податься, и друга посоветовать!

Ну, а главное, как обычно, продукт. Агентные системы типа Codex или Claude Code — во многом подвиг пост-трейн команд. Они запихивают чатового агента в сложный скаффолд, и вдалбливают в него все особенности работы в этой среде, пока он сопротивляется — ревард-хакает, галлюцинирует и в целом делает всё, чтобы от него отстали ☹️

Preference Model делают RL-окружения, где агенты учатся всяким сложным штукам, а потом начинают работать в реальных скаффолдах лучше и сопротивляться поменьше 👾

И хотят больше новых сред от экспертов — поэтому ищут RL Environments Engineer'ов: людей, которые разбираются в чём-то сложном и ML-related.

Вакансия похожа на сэндвич, который вы собираете сами. Главный ингредиент — ваше профильное образование, публикации или опыт c ML-инфрой по теме:

🍖 внутренности трансформеров;
🐟 CUDA или Pallas kernel-разработка;
🦐 ML-архитектуры и генеративные модели (тут все от KAN до диффузионок);
🥚 geometric/topological DL, optimal transport;
🧀 mechanistic interpretability;
🥑 ML в науке и численные методы (от биоинформатики до fluid dynamics);

Дальше — основа:
🍞 опыт разработки на Python + Docker;
🍅 хорошее понимание, что умеют и не умеют нынешние LLM;
🍞 английский C1+.

Заправьте форматом работы на ваш вкус: от 3 месяцев до бесконечности и от 20 часов в неделю до фуллтайма 🥫

Платят $50-150/час в зависимости от опыта и специализации. Полная удалёнка, нужно только пересекаться с PST-таймзоной хотя бы часа на 4. Если понравитесь команде, есть возможность перейти в штат и обсудить переезд в SF.

Пишите Феде 🍴

Будьте осторожны: если вас просят войти в iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Текст вакансии взят без изменений

Источник -