On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).
Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.
Задачи:
- Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
- Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
- Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
- Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
- Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
- Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.
Ближайшие задачи:
- Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
- Развести training и inference workloads (политики, изоляция, ресурсные границы).
- Спроектировать inference-слой (Kubernetes-based) и план внедрения.
Требования:
- Senior Linux (storage/FS/ACL, perf troubleshooting).
- Практический опыт эксплуатации Slurm.
- Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
- Понимание HPC и распределённых задач.
- Сильная сеть: routing / VLAN.
Будет плюсом:
- Lustre, InfiniBand.
- FreeIPA/LDAP.
- HPE (iLO/BIOS/firmware — если приходилось).
- Kubernetes (особенно on-prem).