Вакансия DevOps/ MLOps в городе Москва

Описание вакансии

Вместе с нами тебе предстоит:

Обеспечение инфраструктуры для развёртывания и эксплуатации ML-сервисов:

Упаковка моделей и inference-сервисов в Docker-контейнеры.
Оркестрация и масштабирование сервисов в Kubernetes (включая работу с GPU, persistent storage, сетевыми политиками).
Поддержка production-готовых решений для запуска LLM-инференса (vLLM,и др.).
Проектирование, внедрение и поддержка CI/CD-процессов
Автоматизация сборки, тестирования и деплоя сервисов и моделей с использованием GitLab CI, Jenkins.
Реализация multi-stage pipeline’ов (dev → staging → prod), механизма rollback’ов, канареечных релизов.
Разворачивание БДНастройка и сопровождение систем observability:
Внедрение мониторинга метрик (Prometheus + Grafana), трейсов и логов (OpenTelemetry).
Настройка алертинга и диагностики инцидентов в production-среде.

Интеграция и поддержка API-сервисов для ML:

Развёртывание и оптимизация inference-эндпоинтов на базе FastAPI, Flask
Обеспечение отказоустойчивости, масштабируемости и безопасности API.

(Опционально) Оптимизация инфраструктуры под требования LLM:

Настройка GPU-ресурсов, управление пулами ускорителей, конфигурация batching и quantization.
Мониторинг latency, throughput и cost-efficiency inference-сервисов.

Какие знания и навыки для нас важны:

Опыт работы в роли DevOps или MLOps-инженера — от 2 лет, включая эксплуатацию production-систем.
Уверенное владение Docker: написание эффективных Dockerfile, управление образами, понимание слоёв, multi-stage сборок.
Опыт развёртывания и управления приложениями в Kubernetes:
Создание манифестов (Deployments, Services, ConfigMaps, Secrets и т.д.)
Настройка Persistent Volumes (PV/PVC), StorageClass, работа с NFS или другими storage-провайдерами
Конфигурация Ingress-контроллеров (Nginx, Traefik и др.) и балансировки трафика
Понимание принципов масштабирования, self-healing, rolling updates
Опыт настройки и интеграции систем аутентификации и авторизации (OAuth2, OIDC, JWT, Keycloak, Dex и др.) для сервисов и UI/API.
Опыт внедрения и настройки систем мониторинга и observability:
Prometheus + Grafana (метрики)
OpenTelemetry или аналоги (трейсы, логи)
Алертинг (Alertmanager, Opsgenie и пр.)
Опыт проектирования и поддержки расширенных CI/CD-процессов (GitLab CI, GitHub Actions, Argo CD, Tekton и др.), включая:
Мультиокружные деплои (dev/stage/prod)
Canary- или blue/green-релизы
Автоматизацию тестирования и rollback-механизмов
Практический опыт работы с Python: написание скриптов автоматизации, взаимодействие с API, поддержка backend-сервисов (FastAPI/Flask и др.).
Опыт развёртывания и оптимизации LLM-инференса:
Работа с фреймворками типа vLLM или аналогами.

Просим обратить внимание, что иногда для установки/обновления нашего ПО, развернутого в контуре заказчика надо будет выезжать к заказчику.

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
,
Опыт работы
От 3 до 6 лет
Дата размещения:
28.01.2026 01:08:31

DevOps/ MLOps

DevOps/ MLOps

Описание вакансии

Краткое описание вакансии

Зарплата

Занятость

Опыт работы

Дата размещения:

Похожие вакансии

Системный администратор / DevOps

Хотите оставить вакансию?