DevOps/ MLOps

Описание вакансии

Вместе с нами тебе предстоит:

Обеспечение инфраструктуры для развёртывания и эксплуатации ML-сервисов:

  • Упаковка моделей и inference-сервисов в Docker-контейнеры.
  • Оркестрация и масштабирование сервисов в Kubernetes (включая работу с GPU, persistent storage, сетевыми политиками).
  • Поддержка production-готовых решений для запуска LLM-инференса (vLLM,и др.).
  • Проектирование, внедрение и поддержка CI/CD-процессов
  • Автоматизация сборки, тестирования и деплоя сервисов и моделей с использованием GitLab CI, Jenkins.
  • Реализация multi-stage pipeline’ов (dev → staging → prod), механизма rollback’ов, канареечных релизов.
  • Разворачивание БДНастройка и сопровождение систем observability:
  • Внедрение мониторинга метрик (Prometheus + Grafana), трейсов и логов (OpenTelemetry).
  • Настройка алертинга и диагностики инцидентов в production-среде.

Интеграция и поддержка API-сервисов для ML:

  • Развёртывание и оптимизация inference-эндпоинтов на базе FastAPI, Flask
  • Обеспечение отказоустойчивости, масштабируемости и безопасности API.

(Опционально) Оптимизация инфраструктуры под требования LLM:

  • Настройка GPU-ресурсов, управление пулами ускорителей, конфигурация batching и quantization.
  • Мониторинг latency, throughput и cost-efficiency inference-сервисов.

Какие знания и навыки для нас важны:

  • Опыт работы в роли DevOps или MLOps-инженера — от 2 лет, включая эксплуатацию production-систем.
  • Уверенное владение Docker: написание эффективных Dockerfile, управление образами, понимание слоёв, multi-stage сборок.
  • Опыт развёртывания и управления приложениями в Kubernetes:
  • Создание манифестов (Deployments, Services, ConfigMaps, Secrets и т.д.)
  • Настройка Persistent Volumes (PV/PVC), StorageClass, работа с NFS или другими storage-провайдерами
  • Конфигурация Ingress-контроллеров (Nginx, Traefik и др.) и балансировки трафика
  • Понимание принципов масштабирования, self-healing, rolling updates
  • Опыт настройки и интеграции систем аутентификации и авторизации (OAuth2, OIDC, JWT, Keycloak, Dex и др.) для сервисов и UI/API.
  • Опыт внедрения и настройки систем мониторинга и observability:
  • Prometheus + Grafana (метрики)
  • OpenTelemetry или аналоги (трейсы, логи)
  • Алертинг (Alertmanager, Opsgenie и пр.)
  • Опыт проектирования и поддержки расширенных CI/CD-процессов (GitLab CI, GitHub Actions, Argo CD, Tekton и др.), включая:
  • Мультиокружные деплои (dev/stage/prod)
  • Canary- или blue/green-релизы
  • Автоматизацию тестирования и rollback-механизмов
  • Практический опыт работы с Python: написание скриптов автоматизации, взаимодействие с API, поддержка backend-сервисов (FastAPI/Flask и др.).
  • Опыт развёртывания и оптимизации LLM-инференса:
  • Работа с фреймворками типа vLLM или аналогами.

Просим обратить внимание, что иногда для установки/обновления нашего ПО, развернутого в контуре заказчика надо будет выезжать к заказчику.

Посмотреть контакты работодателя

Похожие вакансии

  • Москва

  • Не указана

Рекомендуем

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию