MLOps инженер

Т1

MLOps инженер

Москва

Описание вакансии

Обязанности:
  • Создание золотого образа под GPU-серверы/облачные GPU решения.
  • Разработка набора автопроверок: функциональные тесты (установка/инициализация/видимость GPU), smoke/health тесты, регрессия.
  • Нагрузочные тесты/бенчмарки, сбор метрик/Автоматизация жизненного цикла продукта.
  • Поддержка пилотов у заказчиков: подготовка стенда, диагностика, рекомендации по настройкам.
  • Оформление результатов: отчеты по тестированию, матрицы совместимости

Опыт работы:

  • 3+ года в DevOps/SRE/MLOps/Platform Engineering
  • Практический опыт эксплуатации Kubernetes-кластера
  • Опыт работы с GPU-окружениями и библиотеками (как минимум NVIDIA-стек)
  • Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний
  • Опыт сопровождения ML-пайплайна на PyTorch
  • Желателен опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости

Знания и навыки (минимальные):

  • Linux (сильный troubleshooting: systemd, сети, storage, kernel modules, права/SELinux
  • Kubernetes: базовая эксплуатация, namespaces/RBAC, daemonset (для node-level агентов), scheduling
  • CRI-O + Podman
  • CI/CD и Git
  • Автоматизация: Bash + Python , Ansible (или аналог)
  • Понимание программного стека GPU решени.

Знания и навыки (желательные):

  • NVIDIA-экосистема: CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG
  • Inference/serving: Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon
  • Kubernetes : CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades
  • IaC: Terraform, Packer, cloud-init
  • Мониторинг: Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI
  • Нагрузочное/функциональное тестирование: pytest, locust/k6
  • Виртуализация/облака: OpenStack/VMware, понимание SR-IOV
  • PyTorch Distributed (DDP) / multi-GPU: понимание базовых принципов и типовых проблем запуска
  • Опыт работы с Astra Linux/РЕД ОС/ALT

Требования к личным качествам:

  • Системное мышление, аккуратность
  • Самостоятельность: способность развернуть стенд, зафиксировать гипотезы, провести диагностику, оформить результаты
  • Коммуникабельность
  • Ответственность за результат, стрессоустойчивость
  • Готовность быстро изучать незнакомый вендорский стек

Знание стека:

  • ОС: Linux (Ubuntu/Debian/CentOS-like; желательно Astra/РЕД ОС)
  • Контейнеризация: Docker/Containerd, Helm
  • K8s: Kubernetes (vanilla/managed), базовые практики эксплуатации GPU-нод
  • CI/CD: Git, GitLab CI/Jenkins
  • Automation/IaC: Ansible, Terraform (желательно), Packer/cloud-init (желательно)
  • Monitoring/Logs: Prometheus, Grafana, Loki/ELK
  • GPU: базовое понимание драйверов, device plugins, GPU diagnostics
  • ML Framework: PyTorch
Навыки
  • Linux
  • Kubernetes
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Айкон Про
  • Москва

  • Не указана

Рекомендуем
  • Москва

  • Не указана

Рекомендуем
PARI
  • Москва

  • Не указана

Рекомендуем
БАЗИС
  • Москва

  • Не указана

Avanpost
  • Москва

  • Не указана

  • Москва

  • Не указана

  • Москва

  • Не указана

РДП Энтерпрайз

Senior DevOps-инженер

РДП Энтерпрайз

  • Москва

  • Не указана

iiii Tech (Форайз)

Observability Engineer

iiii Tech (Форайз)

  • Москва

  • Не указана

Softline
  • Москва

  • Не указана

Моринтех

DevOps-инженер

Моринтех

  • Москва

  • Не указана

Finstar Financial Group

DevOps-инженер

Finstar Financial Group

  • Москва

  • Не указана

Защищенные Телекоммуникации

Ведущий сетевой инженер

Защищенные Телекоммуникации

  • Москва

  • Не указана

М.Видео-Эльдорадо

SRE-инженер

М.Видео-Эльдорадо

  • Москва

  • Не указана

ВТБ Факторинг

DevOps инженер (Senior)

ВТБ Факторинг

  • Москва

  • Не указана

Лаборатория Касперского

Senior AI Engineer

Лаборатория Касперского

  • Москва

  • Не указана

ИТР
  • Москва

  • Не указана

Marfatech
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию