Ищем MLOps инженера, который поможет масштабировать и оптимизировать экосистему. Данная платформа предназначена для промышленной эксплуатации моделей машинного обучения в on-premise среде. Инфраструктура обеспечивает полный цикл жизни ML-моделей: от распределённого обучения на GPU-кластере до высоконагруженного инференса в production.
Чем предстоит заниматься:
- Построением и настройкой инфраструктуры для решения задач машинного обучения, включая развёртывание и обслуживание GPU‑серверов, организацию процессов обучения и инференса моделей.
- Внедрять практики MLOps: настройка CI/CD‑пайплайнов для моделей, организация версионирования данных, кода и артефактов, мониторинг качества и дрейфа моделей.
- Поддерживать и оптимизировать пайплайны обучения и деплоя ML‑моделей: ускорение сборок, эффективное кэширование, управление ресурсами кластера.
- Обеспечивать отказоустойчивость, безопасность и масштабируемость ML-инфраструктуры.
- Автоматизировать рутинные операции: provisioning ресурсов, конфигурация окружений, health-checks сервисов.
- Взаимодействовать с командами Data Science и разработки для перевода прототипов моделей в промышленную эксплуатацию.
Для нас важно:
- Опыт работы в сфере DevOps / Infrastructure Engineering не менее 4 лет.
- Обязательный опыт работы с ML-инфраструктурой и GPU-нагрузками: планирование ресурсов, мониторинг утилизации, оптимизация обучения и инференса.
- Практический опыт работы с on-prem ML-стеком: развёртывание и поддержка Kubernetes-кластеров с GPU-нодами, работа с CUDA, драйверами, runtime.
- Глубокое понимание контейнеризации: Docker, оптимизация образов, multi-stage builds, security scanning.
- Опыт оркестрации и управления инфраструктурой: Kubernetes (GPU scheduling, device plugins), Terraform / Ansible.
- Практика построения MLOps-процессов: MLflow / Kubeflow для трекинга экспериментов и управления моделями, DVC для версионирования данных.
- Навыки настройки мониторинга и алертинга: Prometheus, Grafana, Zabbix (метрики подов, узлов, GPU, latency, error rate).
- Уверенное владение Bash + Python для автоматизации задач и написания операторов/хуков.
- Понимание принципов CI/CD: GitLab CI / ArgoCD / Jenkins, интеграция тестов и деплоя моделей.
Главный принцип SkillStaff - Выбирай!
- РАЗНООБРАЗИЕ ПРОЕКТОВ. Выбирай из сотен компаний и проектов то, что интересно и полезно для твоего роста. SkillStaff помогает реализовывать ежегодно порядка 500 различных ИТ-проектов для крупного бизнеса.
- КОМФОРТ. SkillStaff — аккредитованная IT-компания, белая зарплата и удобный график работы. Создавай идеальные условия для своей работы: удаленная работа или возможность работать как в офисе клиента, так и в комфортном офисе SkillStaff в центре Москвы на Воздвиженке.
- РАЗВИТИЕ. Выбирай сам путь, по которому ты хочешь развиваться. Используй возможность обмена опытом и получение знаний через участие в разных проектах, совместную работу с высококвалифицированными коллегами.
- КУЛЬТУРА. Нашу культуру создают сами сотрудники – мы их слышим и помогаем развиваться, чтобы #вместе переходить на новый уровень!