MLOps (Senior), медицинская информационная система

Описание вакансии

Ищем MLOps инженера, который поможет масштабировать и оптимизировать экосистему. Данная платформа предназначена для промышленной эксплуатации моделей машинного обучения в on-premise среде. Инфраструктура обеспечивает полный цикл жизни ML-моделей: от распределённого обучения на GPU-кластере до высоконагруженного инференса в production.

Чем предстоит заниматься:

Построением и настройкой инфраструктуры для решения задач машинного обучения, включая развёртывание и обслуживание GPU‑серверов, организацию процессов обучения и инференса моделей.
Внедрять практики MLOps: настройка CI/CD‑пайплайнов для моделей, организация версионирования данных, кода и артефактов, мониторинг качества и дрейфа моделей.
Поддерживать и оптимизировать пайплайны обучения и деплоя ML‑моделей: ускорение сборок, эффективное кэширование, управление ресурсами кластера.
Обеспечивать отказоустойчивость, безопасность и масштабируемость ML-инфраструктуры.
Автоматизировать рутинные операции: provisioning ресурсов, конфигурация окружений, health-checks сервисов.
Взаимодействовать с командами Data Science и разработки для перевода прототипов моделей в промышленную эксплуатацию.

Для нас важно:

Опыт работы в сфере DevOps / Infrastructure Engineering не менее 4 лет.
Обязательный опыт работы с ML-инфраструктурой и GPU-нагрузками: планирование ресурсов, мониторинг утилизации, оптимизация обучения и инференса.
Практический опыт работы с on-prem ML-стеком: развёртывание и поддержка Kubernetes-кластеров с GPU-нодами, работа с CUDA, драйверами, runtime.
Глубокое понимание контейнеризации: Docker, оптимизация образов, multi-stage builds, security scanning.
Опыт оркестрации и управления инфраструктурой: Kubernetes (GPU scheduling, device plugins), Terraform / Ansible.
Практика построения MLOps-процессов: MLflow / Kubeflow для трекинга экспериментов и управления моделями, DVC для версионирования данных.
Навыки настройки мониторинга и алертинга: Prometheus, Grafana, Zabbix (метрики подов, узлов, GPU, latency, error rate).
Уверенное владение Bash + Python для автоматизации задач и написания операторов/хуков.
Понимание принципов CI/CD: GitLab CI / ArgoCD / Jenkins, интеграция тестов и деплоя моделей.

Главный принцип SkillStaff - Выбирай!

РАЗНООБРАЗИЕ ПРОЕКТОВ. Выбирай из сотен компаний и проектов то, что интересно и полезно для твоего роста. SkillStaff помогает реализовывать ежегодно порядка 500 различных ИТ-проектов для крупного бизнеса.
КОМФОРТ. SkillStaff — аккредитованная IT-компания, белая зарплата и удобный график работы. Создавай идеальные условия для своей работы: удаленная работа или возможность работать как в офисе клиента, так и в комфортном офисе SkillStaff в центре Москвы на Воздвиженке.
РАЗВИТИЕ. Выбирай сам путь, по которому ты хочешь развиваться. Используй возможность обмена опытом и получение знаний через участие в разных проектах, совместную работу с высококвалифицированными коллегами.
КУЛЬТУРА. Нашу культуру создают сами сотрудники – мы их слышим и помогаем развиваться, чтобы #вместе переходить на новый уровень!