Назад
3 часа Π½Π°Π·Π°Π΄

Senior HPC / GPU Infrastructure Engineer

Π€ΠΎΡ€ΠΌΠ°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹
remote (Global)
Π’ΠΈΠΏ Ρ€Π°Π±ΠΎΡ‚Ρ‹
fulltime
Π“Ρ€Π΅ΠΉΠ΄
senior
Π‘Ρ‚Ρ€Π°Π½Π°
Russia
vacancy_detail.hirify_telegram_tooltip Π—Π°Π³Ρ€ΡƒΠΆΠ°Π΅ΠΌ источник...

ΠœΡΡ‚Ρ‡ & Π‘ΠΎΠΏΡ€ΠΎΠ²ΠΎΠ΄

ΠŸΠΎΠΊΠ°ΠΆΠ΅Ρ‚ Π²Π°ΡˆΡƒ ΡΠΎΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ΡŒ ΠΈ Π½Π°ΠΏΠΈΡˆΠ΅Ρ‚ письмо

ОписаниС вакансии

Senior HPC / GPU Infrastructure Engineer

ВрСбования

DevOps-ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€ Senior Linux Kubernetes

Условия

МоТно ΡƒΠ΄Π°Π»Ρ‘Π½Π½ΠΎ SMALL On-prem GPU-кластСр для training/R&D (8 ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚ Π½ΠΎΠ΄, Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠΎ 8 NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand). Π˜Ρ‰Π΅ΠΌ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π° Π² ΠΏΠΎΠ»Π½ΠΎΠ΅ ownership , которыйсам спроСктируСт ΠΈ выстроит Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ эксплуатации : стандарты, Π½Π°Π±Π»ΡŽΠ΄Π°Π΅ΠΌΠΎΡΡ‚ΡŒ, Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡ‚ΡŒ, ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.
ΠœΡ‹ строим ML-ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡƒ практичСски с нуля ΠΈ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΡ‚ΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ свободу ΠΏΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡΠΌ β€” Π²Π°ΠΆΠ½ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° Ρ€Π°Π±ΠΎΡ‚Π°Π»Π° ΠΈ Π±Ρ‹Π»Π° ΡƒΠ΄ΠΎΠ±Π½ΠΎΠΉ для ML-ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹. Π—Π°Π΄Π°Ρ‡ΠΈ:

  • Workload orchestration (Slurm / HPC) β€” ΠΎΡ‡Π΅Ρ€Π΅Π΄ΠΈ/partitions, ΠΏΠΎΠ»ΠΈΡ‚ΠΈΠΊΠΈ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ΠΎΠ² ΠΈ Π»ΠΈΠΌΠΈΡ‚ΠΎΠ², fair-share, GRES, сопровоТдСниС multi-node training.
  • Compute runtime (GPU + ΠΊΠΎΠ½Ρ‚Π΅ΠΉΠ½Π΅Ρ€Ρ‹) β€” NVIDIA drivers, CUDA/driver compatibility, ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΈ воспроизводимыС ΠΊΠΎΠ½Ρ‚Π΅ΠΉΠ½Π΅Ρ€Π½Ρ‹Π΅ окруТСния (Π² Ρ‚.Ρ‡. ΠΏΠΎΠ΄ training).
  • Data plane (Storage) β€” эксплуатация Lustre, ΠΏΡ€Π°Π²Π°/ΠΊΠ²ΠΎΡ‚Ρ‹/striping, I/O tuning ΠΈ Ρ€Π°Π±ΠΎΡ‚Π° с Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ NVMe (scratch/cache).
  • Network fabric (Connectivity + InfiniBand) β€” routing/VLAN/DNS, ΡΠ²ΡΠ·Π½ΠΎΡΡ‚ΡŒ кластСра с Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ сСрвисами, базовая эксплуатация ΠΈ диагностика InfiniBand.
  • **Identity, access & multi-tenancy (Security) **β€” цСнтрализованная аутСнтификация (FreeIPA/LDAP), Ρ€Π°Π·Π³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠ΅ доступа ΠΊ рСсурсам/Π΄Π°Π½Π½Ρ‹ΠΌ, sudo policies.
  • Reliability & operations (Observability + ΠΈΠ½Ρ†ΠΈΠ΄Π΅Π½Ρ‚Ρ‹ + perf debugging) β€” ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³/Π°Π»Π΅Ρ€Ρ‚Ρ‹ (Prometheus/Grafana), runbooks, ΠΈΠ½Ρ†ΠΈΠ΄Π΅Π½Ρ‚-ΠΌΠ΅Π½Π΅Π΄ΠΆΠΌΠ΅Π½Ρ‚, систСмный troubleshooting ΠΈ поиск ΡƒΠ·ΠΊΠΈΡ… мСст (Slurm/GPU/Storage/Network), capacity planning.

Π‘Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ:

  • Π‘Ρ‚Π°Π±ΠΈΠ»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ ΡΡ‚Π°Π½Π΄Π°Ρ€Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΠΊΡΠΏΠ»ΡƒΠ°Ρ‚Π°Ρ†ΠΈΡŽ (процСссы, ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³, Ρ‚ΠΈΠΏΠΎΠ²Ρ‹Π΅ сцСнарии).
  • РазвСсти training ΠΈ inference workloads (ΠΏΠΎΠ»ΠΈΡ‚ΠΈΠΊΠΈ, изоляция, рСсурсныС Π³Ρ€Π°Π½ΠΈΡ†Ρ‹).
  • Π‘ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ inference-слой (Kubernetes-based) ΠΈ ΠΏΠ»Π°Π½ внСдрСния.

ВрСбования:

  • Senior Linux(storage/FS/ACL, perf troubleshooting).
  • ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠΎΠΏΡ‹Ρ‚ эксплуатации Slurm.
  • ΠžΠΏΡ‹Ρ‚ с NVIDIA GPU-сСрвСрами (drivers/CUDA/runtime, диагностика).
  • ПониманиС HPC ΠΈ распрСдСлённых Π·Π°Π΄Π°Ρ‡.
  • Бильная ΡΠ΅Ρ‚ΡŒ: routing / VLAN.

Π‘ΡƒΠ΄Π΅Ρ‚ плюсом:

  • Lustre ,InfiniBand.
  • FreeIPA/LDAP.
  • HPE (iLO/BIOS/firmware β€” Ссли ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ).
  • Kubernetes (особСнно on-prem).

Π‘ΡƒΠ΄ΡŒΡ‚Π΅ остороТны: Ссли Ρ€Π°Π±ΠΎΡ‚ΠΎΠ΄Π°Ρ‚Π΅Π»ΡŒ просит Π²ΠΎΠΉΡ‚ΠΈ Π² ΠΈΡ… систСму, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ iCloud/Google, ΠΏΡ€ΠΈΡΠ»Π°Ρ‚ΡŒ ΠΊΠΎΠ΄/ΠΏΠ°Ρ€ΠΎΠ»ΡŒ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ ΠΊΠΎΠ΄/ПО, Π½Π΅ Π΄Π΅Π»Π°ΠΉΡ‚Π΅ этого - это мошСнники. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΆΠΌΠΈΡ‚Π΅ "ΠŸΠΎΠΆΠ°Π»ΠΎΠ²Π°Ρ‚ΡŒΡΡ" ΠΈΠ»ΠΈ ΠΏΠΈΡˆΠΈΡ‚Π΅ Π² ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΡƒ. ΠŸΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ Π² Π³Π°ΠΉΠ΄Π΅ β†’

ВСкст вакансии взят Π±Π΅Π· ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ -