Назад
обновлено 1 день назад

Data Acquisition Tech Lead (AI)

700 000 - 1 200 000
Формат работы
hybrid
Тип работы
fulltime
Грейд
lead
Страна
Russia

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

Текст:
/

TL;DR

Data Acquisition Tech Lead (AI): Проектирование и развитие масштабируемой инфраструктуры веб-краулинга для сбора петабайт данных для обучения LLM с акцентом на распределённые системы и пайплайны обработки. Фокус на оптимизации алгоритмов сбора, обеспечении качества данных и внедрении инженерных стандартов в команде.

Локация: Гибрид (Москва, м. Кутузовская), 2 дня в офисе, 3 дня удалённо

Зарплата: 700 000 — 1 200 000 ₽/мес до налогов

Компания

Команда GigaChat в Сбере, занимающаяся созданием языковых моделей нового поколения и высокотехнологичными системами сбора данных.

Что делать

  • Проектировать и поддерживать масштабируемую инфраструктуру веб-краулинга для обработки миллиардов страниц.
  • Развивать пайплайны загрузки, дедупликации и обогащения сырого контента в структурированные датасеты.
  • Разрабатывать алгоритмы планирования и приоритизации краулинга в условиях ограниченных ресурсов.
  • Создавать системы поиска и индексирования для эффективного отбора данных из общего корпуса.
  • Обеспечивать наблюдаемость систем через метрики, логирование и алертинг.
  • Выступать техническим лидером: менторить инженеров, проводить code review и определять архитектурный подход.

Требования

  • Высшее образование в области computer science или математики.
  • Опыт разработки от 6 лет, из которых 3+ года в создании масштабных распределённых систем.
  • Глубокая экспертиза в веб-краулинге и скрейпинге в масштабе миллиардов документов.
  • Уверенное владение Python, Go или C++, а также опытом работы с Kubernetes.
  • Практический опыт с распределёнными хранилищами и NoSQL базами данных.
  • Способность аргументированно принимать технические решения и вести сложные инициативы от замысла до продакшена.

Хорошо, если есть

  • Опыт работы с YTSaurus.
  • Опыт эксплуатации веб-краулеров петабайтного масштаба.
  • Бэкграунд в NLP, извлечении текста или определении языка.
  • Опыт неформального лидерства и менторства в сильных технических командах.

Культура и преимущества

  • Доступ к мощным кластерам YTSaurus (десятки петабайт и тысяч ядер).
  • Работа в команде экспертов из МФТИ, ВШЭ, МГУ и профильного БигТеха.
  • Современный офис у м. Кутузовская и гибкий гибридный график.
  • Расширенный полис ДМС с первого дня, страхование семьи и льготная ипотека.
  • Ежегодный пересмотр зарплаты, годовые премии и система профессионального обучения.
  • Корпоративный спортзал, зоны отдыха и бесплатная подписка СберПрайм+.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →