Senior HPC / GPU Infrastructure Engineer

Senior HPC / GPU Infrastructure Engineer

Показать контакты

Описание вакансии

On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).

Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.

Задачи:

Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.

Ближайшие задачи:

Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
Развести training и inference workloads (политики, изоляция, ресурсные границы).
Спроектировать inference-слой (Kubernetes-based) и план внедрения.

Требования:

Senior Linux (storage/FS/ACL, perf troubleshooting).
Практический опыт эксплуатации Slurm.
Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
Понимание HPC и распределённых задач.
Сильная сеть: routing / VLAN.

Будет плюсом:

Lustre, InfiniBand.
FreeIPA/LDAP.
HPE (iLO/BIOS/firmware — если приходилось).
Kubernetes (особенно on-prem).

Навыки

Slurm
GPU
Storage
Kubernetes
Linux
HPC
Lustre
FreeIPA

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
,
Опыт работы
Более 6 лет
Дата размещения:
06.03.2026 01:13:42

Похожие вакансии

Senior DevOps/Data Engineer (Streaming / Infrastructure)

devs

Алматы
Не указана

Рекомендуем

Senior Python developer

COMTEK Inc.

Алматы
до 6000 USD

Рекомендуем

Senior Data Scientist

Genesis Group AG

Алматы
до 6000 USD

Рекомендуем

Tech Lead / System Architect (Golang| Distributed Systems & IoT)

Small, ТМ (Скиф Трейд, ТОО)

Алматы
до 6000 USD

Middle/Senior Backend- разработчик (PHP/Laravel)

Kulenkov Group

Алматы
от 500000 KZT

Senior Developer (Blockchain / Crypto)

VELARIS MARKETING SERVICES VIA SOCIAL MEDIA L.L.C

Алматы
до 2500 USD

AI Engineer

Andersen

Алматы
до 2500 USD

Senior Full-stack developer (React, Node, Python)

ОнТаргет ЛАБС

Алматы
до 2500 USD

Senior development Full stack specialist

Dolce Vita (Долче Вита)

Алматы
до 1000000 KZT

Chief Accountant

ЧАСТНАЯ КОМПАНИЯ PURE ESCAPES (KAZAKHSTAN) LTD.

Алматы
до 1000000 KZT

Senior C# Developer

5 LAB(ФАЙВ ЛАБ)

Алматы
до 1000000 KZT

Senior DevSecOps

Small, ТМ (Скиф Трейд, ТОО)

Алматы
до 1000000 KZT

Старший архитектор решений по информационной безопасности

Bereke Bank

Алматы
до 1000000 KZT

Senior Backend Node. js Developer

SDO

Алматы
до 4500 USD

Senior 1C Developer (1С 8.3, УТ для Казахстана)

Apple City Corps

Алматы
до 1320000 KZT

Senior ERP Consultant

Andersen

Алматы
до 1320000 KZT

Senior Java Developer, AWS

COMTEK Inc.

Алматы
до 6000 USD

Senior Sales Development Representative (US market)

GeoX

Алматы
до 6000 USD

Senior Backend-разработчик

Small, ТМ (Скиф Трейд, ТОО)

Алматы
до 6000 USD

UX/UI-дизайнер / Product дизайнер (Senior)

DataLouna

Алматы
до 4500 USD

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.

Оставить вакансию