✨ Старший разработчик в группу GPU-инфраструктуры
Мы развиваем внутреннее контейнерное облако (Runtime Cloud — RTC), в котором запущены все сервисы, создаваемые тысячами разработчиков Яндекса. Мы не только позволяем настраивать и запускать сервисы, но и даём пользователю всё, что нужно, чтобы их эксплуатировать: настраиваем балансировку, предоставляем мониторинг поднятых сервисов, собираем логи и не только. Группа GPU-инфраструктуры отвечает за разработку сервисов для работоспособности GPU-инфраструктуры всего Яндекса, ML/HPC-компонентов для распределённого инференса и обучения, которые позволяют эффективно использовать современные ускорители и RDMA-сеть. Мы активно участвуем не только в разработке системного ПО и фреймворков распределённых вычислений для тренировки и инференса ML-моделей, но и в дизайне наших RDMA-кластеров, их конфигурировании, мониторинге, оптимизации на протяжении всего жизненного цикла.
Какие задачи вас ждут:
• Поддерживать и развивать системное программное обеспечение, которое отвечает за конфигурирование, мониторинг, выделение в пользовательские контейнеры GPU- и RDMA-устройств на серверах
• Поддерживать и развивать fleet-wide GPU-профилирование для всех сервисов Яндекса
• Развивать сервисы автоматизированного управления GPU-инфраструктурой
• Развивать и оптимизировать инфраструктуру распределённого disaggregated-инференса и обучений
• Участвовать в дизайне и внедрении нового оборудования в нашем облаке
Мы ждём, что вы:
• Знаете Go, C/C++ или Python
• Умеете писать поддерживаемый и эффективный код
• Хорошо понимаете принципы работы компьютерных сетей, операционных систем, контейнеризации и виртуализации
• Умеете работать с K8s
• Интересуетесь R&D-работой и умеете решать нетипичные задачи
Будет плюсом, если вы:
• Знаете Rust
• Занимались проектами, связанными с распределёнными вычислениями на GPU
• Разрабатывали или использовали рантаймы для параллельных вычислений, для P2P или коллективных сетевых коммуникаций
• Разрабатывали или использовали инференс-фреймворки
• Разрабатывали ядро Linux и его модули
📩 Откликайтесь на вакансию на нашем сайте
#GPU #cloud #golang #CPP #python #нижнийновгород #белград