Senior HPC / GPU Infrastructure Engineer

Small, ТМ (Скиф Трейд, ТОО)

Senior HPC / GPU Infrastructure Engineer

Описание вакансии

On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).

Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.

Задачи:
  • Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
  • Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
  • Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
  • Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
  • Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
  • Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.

Ближайшие задачи:

  • Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
  • Развести training и inference workloads (политики, изоляция, ресурсные границы).
  • Спроектировать inference-слой (Kubernetes-based) и план внедрения.

Требования:

  • Senior Linux (storage/FS/ACL, perf troubleshooting).
  • Практический опыт эксплуатации Slurm.
  • Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
  • Понимание HPC и распределённых задач.
  • Сильная сеть: routing / VLAN.

Будет плюсом:

  • Lustre, InfiniBand.
  • FreeIPA/LDAP.
  • HPE (iLO/BIOS/firmware — если приходилось).
  • Kubernetes (особенно on-prem).
Навыки
  • Slurm
  • GPU
  • Storage
  • Kubernetes
  • Linux
  • HPC
  • Lustre
  • FreeIPA
Посмотреть контакты работодателя

Похожие вакансии

  • Алматы

  • Не указана

Рекомендуем
COMTEK Inc.
  • Алматы

  • до 6000 USD

Рекомендуем

Senior Data Scientist

Genesis Group AG

  • Алматы

  • до 6000 USD

Рекомендуем
Small, ТМ (Скиф Трейд, ТОО)

Tech Lead / System Architect (Golang| Distributed Systems & IoT)

Small, ТМ (Скиф Трейд, ТОО)

  • Алматы

  • до 6000 USD

Kulenkov Group
  • Алматы

  • от 500000 KZT

Senior Developer (Blockchain / Crypto)

VELARIS MARKETING SERVICES VIA SOCIAL MEDIA L.L.C

  • Алматы

  • до 2500 USD

Andersen

AI Engineer

Andersen

  • Алматы

  • до 2500 USD

ОнТаргет ЛАБС
  • Алматы

  • до 2500 USD

Dolce Vita (Долче Вита)

Senior development Full stack specialist

Dolce Vita (Долче Вита)

  • Алматы

  • до 1000000 KZT

Chief Accountant

ЧАСТНАЯ КОМПАНИЯ PURE ESCAPES (KAZAKHSTAN) LTD.

  • Алматы

  • до 1000000 KZT

Senior C# Developer

5 LAB(ФАЙВ ЛАБ)

  • Алматы

  • до 1000000 KZT

Small, ТМ (Скиф Трейд, ТОО)

Senior DevSecOps

Small, ТМ (Скиф Трейд, ТОО)

  • Алматы

  • до 1000000 KZT

Andersen
  • Алматы

  • до 1320000 KZT

COMTEK Inc.
  • Алматы

  • до 6000 USD

Small, ТМ (Скиф Трейд, ТОО)

Senior Backend-разработчик

Small, ТМ (Скиф Трейд, ТОО)

  • Алматы

  • до 6000 USD

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию