Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера
Пожаловаться
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
Data Engineer / Python Backend
(LLM · Web Crawling · PDF · Data Pipelines)
Мы строим Legal AI платформу для рынков UAE / MENA: единый источник законодательства, судебной практики и комплаенса с AI-ассистентом.
Ищем инженера, который возьмёт на себя сбор, обновление и качество данных.
Что нужно делать
- Разрабатывать сервис сбора данных (web, PDF, документы).
- Поддерживать краулеры и парсеры (в т.ч. через Playwright).
- Извлекать текст и таблицы из PDF, приводить к структуре.
- Использовать LLM для извлечения сущностей, классификации и нормализации данных.
- Строить асинхронные data-пайплайны через брокеры сообщений.
- Реализовывать версионирование, дедупликацию и контроль изменений данных.
- Разрабатывать backend/API на Python.
Требования
- Уверенный Python (backend), понимание асинхронности.
- Опыт с FastAPI и/или Litestar.
- Практический опыт web scraping / Playwright.
- Опыт парсинга PDF.
- Хорошее владение SQL, PostgreSQL или аналоги.
- Понимание очередей и event-driven архитектуры.
Плюсом будет
- Kafka / RabbitMQ / NATS.
- LLM / RAG / embeddings (OpenAI, HuggingFace, локальные модели).
- Airflow / Prefect, Celery / RQ.
- Docker, CI/CD, Kubernetes.
- Elasticsearch / Qdrant.
- Опыт data quality и контроля актуальности данных.
Почему это интересно
- Сложные и критичные данные (законы, версии, изменения).
- Реальное применение LLM в продакшене.
- Влияние на архитектуру и стандарты с раннего этапа.
- Масштабирование: UAE → GCC → MENA.
- Полная удаленка
Откликнуться ->
Показать контакты
Будьте осторожны: если вас просят войти в iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера