TL;DR
ML Разработчик (AI): Подготовка данных для обучения линейки моделей LLM GigaChat (GigaChat, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.) с акцентом на сбор данных для базовых моделей и адаптацию под конкретные сценарии. Фокус на автоматизации обработки документов, анализе финансовых данных и поддержке сотрудников.
Локация: Москва, гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
Компания
Команда ML-инженеров GigaChat Data готовит данные для обучения всей линейки моделей LLM GigaChat.
Что делать
- Подготовка данных для обучения моделей LLM GigaChat.
- Сбор данных для базовых моделей и их адаптация под конкретные сценарии.
- Работа с данными для core моделей, продуктов B2C и внутренних банковских задач.
- Разработка кастомных решений для корпоративных клиентов и интеграция LLM в бизнес-процессы.
Требования
- Знания Python на очень высоком уровне.
- Опыт работы с проприетарными и open-source LLM (Llama, Mistral, Qwen, Google Gemini, OpenAI GPT, Anthropic и пр.).
- Понимание процессов работы с данными для больших языковых моделей.
- Способность решать проблемы и организовывать работу в условиях многозадачности.
Хорошо, если есть
- Опыт работы с LLM-агентами (LangChain, LangSmith, LangGraph, FAISS, RAG, ChromaDB и пр.).
Культура и преимущества
- Комфортный современный офис рядом с м. Кутузовская.
- Ежегодный пересмотр зарплаты, годовая премия.
- Корпоративный спортзал и зоны отдыха.
- Система обучения для профессионального и карьерного развития.
- Расширенный полис ДМС с первого дня работы и страхование для семьи.
- Льготная программа ипотеки для сотрудников.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →