Аккредитованная ИТ-компания реализует динамично развивающийся проект в сфере здравоохранения. Легаси-кода и готовой инфраструктуры нет — всё предстоит построить. Нам нужен эксперт, который силён в Kubernetes и понимает жизненный цикл ML-моделей (опыт MLOps будет большим преимущество).
Чем предстоит заниматься
Инфраструктура
- Проектирование и развёртывание продакшн-кластера Kubernetes (On‑premise) с нуля;
- Выбор и настройка сетевых политик, Ingress-контроллеров, систем хранения;
- Внедрение автомасштабирования, управление ресурсами и QoS;
- Построение мониторинга и алертинга на уровне кластера и приложений.
MLOps
- Проектирование пайплайнов для обучения и инференса моделей внутри K8s;
- Внедрение трекинга экспериментов и версионирования данных;
- Оркестрация пайплайнов;
- Настройка высокопроизводительного инференса с поддержкой GPU.
Ключевые требования
Обязательные
- Коммерческий опыт работы с Kubernetes в продакшене от 2+ лет — глубокое понимание внутреннего устройства: CRD, Operators, контроллеры, работа с etcd и kube-apiserver;
- Уверенное знание Linux и сетей (TCP/IP, DNS, балансировка);
- Языки программирования: Python и/или Go;
- Опыт настройки мониторинга и логирования.
Желательные
- Понимание жизненного цикла ML-моделей;
- Опыт работы с GPU-оператором в K8s (NVIDIA GPU Operator) и управление GPU-нодами;
- Знакомство с инструментами оркестрации (Airflow, Argo Workflows, Kubeflow) — даже на уровне pet-проектов.
Условия работы
- Удалённый формат;
- Фиксированный проект, но с возможностью дальнейшего продолжения сотрудничества.