Главный инженер

РТК-ЦОД

Главный инженер

Москва, Ленинградский проспект, 35с1

Метро: Динамо

Описание вакансии

Обязанности:
  • Развивать и поддерживать платформу для запуска ML workloads.
  • Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы.
  • Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform.
  • Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов.
  • Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira.
  • Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix.
  • Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации.
  • Проводить плановые работы любого уровня сложности.
  • Вести документацию в рамках зоны ответственности отдела.
  • Вести аварии и составлять планы пост аварийных мер на ML платформе.
Требования:
  • Опыт администрирования Kubernetes кластеров от одного года.
  • Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS.
  • Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators.
  • Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов.
  • Опыт работы с системами автоматизации: Ansible и Terraform
  • Уверенное знание Linux на уровне администратора
  • Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium
  • Опыт работы с CI/CD: желателен GitLab CI.
  • Понимание Gitops подхода и цикла разработки приложение для k8s.
  • Знание одного из языков программирования на среднем уровне: Python или Go.
  • Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги.
  • Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости.

Будет плюсом

  • Опыт эксплуатации GPU-инфраструктуры в Kubernetes.
  • Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL
  • Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM.
  • Опыт работы с KServe, Knative, Kubeflow.
  • Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API.
  • Опыт с storage в Kubernetes: Ceph/Rook
  • Опыт работы с baremetal серверами и облаками.
  • Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput.
Условия:
  • Стабильный и прозрачный «белый» доход и полноценный соц. пакет;
  • График работы 5/2, гибкое начало дня, гибридный или удаленный формат работы + три дополнительных дня отпуска в год;
  • Корпоративный университет, который организует внутреннее и внешнее профильное обучение;
  • Перспективы горизонтального и вертикального карьерного роста: вы можете стать руководителем или экспертом в своей области;
  • Программу ДМС с обслуживанием в лучших клиниках города+оплата мобильной связи;
  • Возможность принять участие в амбициозных, крупных и стабильных проектах.
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Gismeteo.ru

Senior DevOps / SRE

Gismeteo.ru

  • Москва

  • Не указана

IT_Cube

Senior DevOps

IT_Cube

  • Москва

  • Не указана

БФТ-Холдинг
  • Москва

  • Не указана

Cloud.ru
  • Москва

  • Не указана

Hi, Rockits!

Senior DevOps

Hi, Rockits!

  • Москва

  • Не указана

Деньги Вперед

SRE-инженер

Деньги Вперед

  • Москва

  • до 450000 RUR

Senior DevOps engineer

ИТС Лаб

  • Москва

  • от 250000 RUR

ИТ-Экспертиза

Ведущий DevOps инженер

ИТ-Экспертиза

  • Москва

  • от 250000 RUR

Ингосстрах

DevOps-инженер

Ингосстрах

  • Москва

  • от 250000 RUR

F6
  • Москва

  • от 250000 RUR

Any
  • Москва

  • от 250000 RUR

Middle+/Senior devops engineer

Куц Егор Андреевич

  • Москва

  • до 550000 RUR

Marfatech
  • Москва

  • до 550000 RUR

IBS
  • Москва

  • до 550000 RUR

ТехВилл

SRE инженер

ТехВилл

  • Москва

  • до 442200 RUR

ВТБ Факторинг
  • Москва

  • до 442200 RUR

IT_Cube
  • Москва

  • до 442200 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию