Senior DevOps / Site Reliability Engineer, SRE

Нейротехнологии

Senior DevOps / Site Reliability Engineer, SRE

Описание вакансии

Наш проект — GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов.

Сейчас мы в поиске сильного Senior DevOps / SRE, который возьмёт на себя построение и развитие GPU-инфраструктуры, автоматизацию onboarding’а серверов, безопасность и orchestration вычислений, а также станет ключевым техническим партнёром для продукта.

Задачи:

- Подключение и активация GPU-серверов (host onboarding): установка и поддержка daemon’а платформы, автоматические проверки GPU, драйверов, CUDA/cuDNN, стабильности
- Формирование и поддержка “паспорта машины” (inventory): модель GPU, VRAM, состояние, ошибки, метрики
- Проектирование и реализация изоляции клиентов:
* Docker + NVIDIA Container Toolkit
* namespaces / cgroups
* управление секретами (tokens, SSH keys)
* сетевая изоляция (firewall, zero-trust подход)
- Запуск и управление вычислительными задачами (training / inference):
* лимиты CPU / RAM / Disk / GPU
* очереди, статусы, retry-механики
- Настройка логирования, метрик и алертов
- Интеграции с S3-совместимыми хранилищами, volumes, кеширование датасетов, checkpointing

Что нам важно:

- Уровень Middle+ / Senior DevOps или SRE
- Сильный Linux (администрирование, а не “пользователь”)
- Практический опыт с Docker и контейнерной изоляцией
- Опыт работы с NVIDIA stack: drivers, CUDA, nvidia-smi, NVIDIA Container Toolkit
- Понимание сетевой безопасности и изоляции
- Опыт работы с GPU-серверами — обязателен

Будет большим плюсом:

- Kubernetes + GPU scheduling
- Terraform / Ansible
- опыт с RunPod / Vast / Lambda / CoreWeave
- понимание ML-нагрузок (training vs inference)

Условия:
- Формат работы: удалённо
- График работы: full-time 5/2, готовность быть гибким и работать на результат
- Заработная плата: обсуждается индивидуально (фикс + бонусы)

Посмотреть контакты работодателя

Похожие вакансии

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Flowwow
Удаленная работа
  • Москва

  • Не указана

Рекомендуем

DevOps engineer

Спикс

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
IT SCOUT(match)

DataOps / DevOps Engineer

IT SCOUT(match)

Удаленная работа
  • Москва

  • Не указана

Цифровые привычки

DevOps Engineer (AI Infrastructure)

Цифровые привычки

Удаленная работа
  • Москва

  • Не указана

NM Technologies HK Limited
Удаленная работа
  • Москва

  • до 400000 RUR

EcoFinance
Удаленная работа
  • Москва

  • до 400000 RUR

Айкон Про
Удаленная работа
  • Москва

  • до 400000 RUR

DevOps-инженер

Фомин Сергей Александрович

Удаленная работа
  • Москва

  • от 260000 RUR

Амбрелла
Удаленная работа
  • Москва

  • от 260000 RUR

evrone.ru
Удаленная работа
  • Москва

  • до 365000 RUR

Клируэй Текнолоджис

Middle DevOps Engineer

Клируэй Текнолоджис

Удаленная работа
  • Москва

  • до 300000 RUR

100балльный репетитор

Senior/lead DevOps-инженер

100балльный репетитор

Удаленная работа
  • Москва

  • до 300000 RUR

Цифровые привычки

DevOps Engineer

Цифровые привычки

Удаленная работа
  • Москва

  • до 300000 RUR

Джемтех

Devops engineer (Middle)

Джемтех

Удаленная работа
  • Москва

  • до 300000 RUR

Miractal
Удаленная работа
  • Москва

  • до 300000 RUR

Eqwile
Удаленная работа
  • Москва

  • до 300000 RUR

Swordfish Security
Удаленная работа
  • Москва

  • до 300000 RUR

РА Дельта
Удаленная работа
  • Москва

  • до 250000 RUR

idaproject
Удаленная работа
  • Москва

  • до 250000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию