Назад
23 минуты назад

ML Engineer (Audio/VoIP)

3 500 - 5 000$
Формат работы
remote (только Uzbekistan)/hybrid
Тип работы
fulltime
Грейд
middle
Английский
b2
Страна
Uzbekistan
Вакансия от Hirify. Размещена напрямую Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера

Мэтч & Сопровод

Покажет вашу совместимость и напишет письмо

Описание вакансии

TL;DR
ML Engineer (Audio/VoIP): разработка и внедрение моделей для системы AMD в высоконагруженном облачном продукте с акцентом на real-time обработку аудио. Фокус на оптимизации latency и интеграции ML-компонентов в backend-инфраструктуру через ONNX Runtime.

ML Engineer (Audio/VoIP)

Компания: Международный продуктовый IT-проект (VoIP / Cloud Telephony)

Занятость: Полная занятость

Формат: Гибрид (офис в Ташкенте на 2-3 месяца → далее полная удаленка)

ЗП: старт от $3500 до $5000 (обсуждается индивидуально)

Мы - продуктовая команда, создающая интеллектуальную экосистему облачной телефонии для рынков США и Канады. Наш продукт - это отказоустойчивая платформа с миллионными оборотами трафика. ML у нас - не вспомогательная фича, а фундамент системы, работающий в режиме real-time. Мы ищем инженера, который досконально понимает внутреннюю архитектуру аудио-моделей и готов отвечать за их работу в высоконагруженном продакшене.

Чем предстоит заниматься:

  • Развитие системы AMD (Answering Machine Detection): дообучение и тюнинг моделей для классификации звонков (отличие человека от автоответчиков/IVR) в режиме реального времени.
  • Full-cycle разработка: от сбора и «грязной» разметки аудиоданных до деплоя и калибровки порогов в продакшене.
  • Интеграция в Core-продукт: перенос ML-компонентов в backend-инфраструктуру (C# / SIP / RTP стек) через ONNX Runtime.
  • Оптимизация latency: борьба за миллисекунды в условиях стриминга аудио.
  • Deep Analysis: поиск ошибок и разбор сложных edge cases в реальных сценариях звонков.
  • Исследования (R&D): эксперименты с шумоподавлением, VAD и новыми архитектурами для обработки речи.

Наш стек: Python, C#, wav2vec 2.0, Whisper, HuggingFace Transformers, MFCC, эмбеддинги, спектрограммы, ONNX / ONNX Runtime, Quantization, SIP / RTP, Windows / Linux

Мы ожидаем:

  • 2+ года опыта в ML в продакшене (когда ваша модель реально работала с пользователями).
  • Практический опыт со Speech/Audio: понимание того, как устроены аудио-фичи и современные архитектуры обработки звука.
  • Инженерный подход (QA-mindset): вам искренне интересно «копаться» в аномалиях данных и проверять систему на прочность.
  • Понимание классики и современности: Fine-tuning, Transfer Learning и умение работать с метриками (Precision/Recall, ROC-AUC, Calibration).
  • Способность работать end-to-end: от сырого файла до оптимизированного инференса.

Что важно:

  • Инженерная автономность: мы ценим тех, кто сам находит проблему и доводит решение до продакшена.
  • Бэкграунд: мы очень приветствуем кандидатов, пришедших в ML из Backend или QA, нам важна культура кода и тестирования.
  • Готовность к динамике: проект растет, задач много, и они напрямую влияют на бизнес.

Будет плюсом:

  • Опыт в Speech/Audio domain (ASR, VAD, Audio Classification).
  • Понимание специфики VoIP и потоковой обработки данных.
  • Опыт работы с MLOps и инструментами мониторинга моделей.

Условия:

  • Обязательный оффлайн-онбординг в Ташкенте (2-3 месяца) для погружения в продукт, далее полная удаленная работа.
  • Реальные production-задачи в международном продукте с высокой нагрузкой.
  • Возможность профессионального роста и пересмотра компенсации по мере усложнения задач.
  • Работа в команде с сильной инженерной экспертизой и отсутствием бюрократии.

Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →

Вакансия размещена на Hirify напрямую от HR/нанимающего менеджера