TL;DR
L2 Technical Support Engineer (Infrastructure): Поддержка инфраструктуры распределенного обучения, облачных IaaS-систем на базе OpenStack и облачной платформы/личного кабинета с акцентом на диагностику инцидентов, устранение ошибок в пайплайнах и окружениях, а также проведение регламентных работ. Фокус на работе с Kubernetes, Docker, OpenStack, системами мониторинга и базами данных SQL для обеспечения стабильности платформы и эффективного решения проблем пользователей.
Локация: Удаленно (Россия) или в офисе в Москве
Что делать
- Поддерживать инфраструктуру распределенного обучения (Jupyter, Triton, CUDA, NCCL) с использованием Kubernetes и Docker.
- Диагностировать ошибки в пайплайнах и окружениях, взаимодействовать с командами разработки при возникновении инцидентов.
- Диагностировать и устранять инциденты на облачной IaaS-инфраструктуре на базе OpenStack.
- Поддерживать виртуальные машины, сети и сопутствующие сервисы, участвовать в модернизации платформы.
- Поддерживать пользовательский интерфейс и API облачной платформы, анализировать HAR-логи и проблемы с авторизацией/биллингом.
- Работать с системами мониторинга и выполнять SQL-запросы.
Требования
- Знание Linux на уровне администратора.
- Опыт работы с Kubernetes и Docker.
- Знание SQL (PostgreSQL) и понимание REST API.
- Навыки анализа HAR-логов, работы с браузерной консолью и владение Git.
- Опыт или желание работать с OpenStack.
- Готовность работать в графике 2-2-2 (дневные и ночные смены).
Хорошо, если есть
- Опыт работы с Python и Bash.
- Опыт работы с системами мониторинга (Zabbix, Grafana).
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →