Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
TL;DR
Data Acquisition Tech Lead (AI): Проектирование и развитие масштабируемой инфраструктуры веб-краулинга для сбора петабайт данных для обучения LLM с акцентом на распределённые системы и пайплайны обработки. Фокус на оптимизации алгоритмов сбора, обеспечении качества данных и внедрении инженерных стандартов в команде.
Локация: Гибрид (Москва, м. Кутузовская), 2 дня в офисе, 3 дня удалённо
Зарплата: 700 000 — 1 200 000 ₽/мес до налогов
Компания
Команда GigaChat в Сбере, занимающаяся созданием языковых моделей нового поколения и высокотехнологичными системами сбора данных.
Что делать
- Проектировать и поддерживать масштабируемую инфраструктуру веб-краулинга для обработки миллиардов страниц.
- Развивать пайплайны загрузки, дедупликации и обогащения сырого контента в структурированные датасеты.
- Разрабатывать алгоритмы планирования и приоритизации краулинга в условиях ограниченных ресурсов.
- Создавать системы поиска и индексирования для эффективного отбора данных из общего корпуса.
- Обеспечивать наблюдаемость систем через метрики, логирование и алертинг.
- Выступать техническим лидером: менторить инженеров, проводить code review и определять архитектурный подход.
Требования
- Высшее образование в области computer science или математики.
- Опыт разработки от 6 лет, из которых 3+ года в создании масштабных распределённых систем.
- Глубокая экспертиза в веб-краулинге и скрейпинге в масштабе миллиардов документов.
- Уверенное владение Python, Go или C++, а также опытом работы с Kubernetes.
- Практический опыт с распределёнными хранилищами и NoSQL базами данных.
- Способность аргументированно принимать технические решения и вести сложные инициативы от замысла до продакшена.
Хорошо, если есть
- Опыт работы с YTSaurus.
- Опыт эксплуатации веб-краулеров петабайтного масштаба.
- Бэкграунд в NLP, извлечении текста или определении языка.
- Опыт неформального лидерства и менторства в сильных технических командах.
Культура и преимущества
- Доступ к мощным кластерам YTSaurus (десятки петабайт и тысяч ядер).
- Работа в команде экспертов из МФТИ, ВШЭ, МГУ и профильного БигТеха.
- Современный офис у м. Кутузовская и гибкий гибридный график.
- Расширенный полис ДМС с первого дня, страхование семьи и льготная ипотека.
- Ежегодный пересмотр зарплаты, годовые премии и система профессионального обучения.
- Корпоративный спортзал, зоны отдыха и бесплатная подписка СберПрайм+.
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →