Алматы, проспект Достык, 188
Метро: АбаяTothemoon — международная криптофинтех-компания, которая уже более 8 лет развивает продукты на стыке финтех и блокчейн-инфраструктуры.
Мы строим экосистему, где технологии работают на грани производительности — от децентрализованных бирж и платёжных решений до вычислительных платформ нового поколения.
Сейчас мы запускаем новый проект — высокопроизводительную ML-инфраструктуру для AI-обучения и GPU-майнинга.
Проект сочетает низкоуровневое GPU-железо, кластер Kubernetes, и AI-таски, которые требуют стабильности, производительности и контроля за ресурсами.
Чтобы всё это работало без перебоев, мы ищем k8s инженера с сильным Linux, который любит железо, знает, как из него выжать максимум, и способен выстроить надёжную инфраструктуру вместе с нашей командой.
Что предстоит делать:
90% - эксплуатация и развитие продакшн-инфраструктуры:
сопровождение managed k8s(контроль-плейн, нод-пулы, autoscaling, PDB, network policies);
поддержка API-и ML-флота
настройка мониторинга, алертинга, логирования, backup’ов, DR-сценариев;
разбор и устранение инцидентов в т.ч on-call
10% - R&D и автоматизация текущего сетапа
Наш стек/Ядро проекта:
Cloud: (managed Kubernetes, GPU bare metal)
Orchestration: Kubernetes (multi-pool, autoscaling, GPU workloads)
GPU / ML: H100, NVIDIA stack (CUDA, драйверы, nvidia-device-plugin)
Нам важно:
Глубокий опыт с Kubernetes ( > 3 лет):
проектирование и эксплуатация продакшн-кластеров (желательно с autoscaling, PDB, network policies);
уверенное владение Deployments, StatefulSets, Ingress, RBAC, StorageClass, Helm/Kustomize;
опыт интеграции k8s с облачными провайдерами (EKS/GKE/AKS/GCore и др.)
Сильный Linux:
понимание работы ядра, сетевого стека, cgroups, namespaces;
диагностика performance-проблем (CPU, память, IO, сеть).
GPU и high-load ML/LLM - как большой плюс:
деплой и эксплуатация приложений на GPU в k8s;
базовое понимание CUDA / NVIDIA драйверов / nvidia-device-plugin;
опыт с monitoring’ом GPU (utilization, memory, thermals, errors).
Интеграционный и эксплуатационный опыт:
интеграция внешних сервисов в k8s (логирование, мониторинг, security, storage);
построение мониторинга/алертинга под SLO/SLA, разбор инцидентов end-to-end;
умение писать runbook’и и автоматизировать рутину
Формат: офис, Алматы/БЦ Кулан
Комфортный офис, обеды для сотрудников.
Конкурентное вознаграждение в USDT / фиатс оплатой больничных, отпусков
Команда уровня senior+, дружелюбная атмосфера и реальный технический вызов.
Plexy Platform Kazakhstan
Алматы
Не указана
N1 INTERACTIVE Ltd
Алматы
до 900000 KZT
Alatau City Bank
Алматы
до 900000 KZT