Вместе с нами тебе предстоит:
Обеспечение инфраструктуры для развёртывания и эксплуатации ML-сервисов:
- Упаковка моделей и inference-сервисов в Docker-контейнеры.
- Оркестрация и масштабирование сервисов в Kubernetes (включая работу с GPU, persistent storage, сетевыми политиками).
- Поддержка production-готовых решений для запуска LLM-инференса (vLLM,и др.).
- Проектирование, внедрение и поддержка CI/CD-процессов
- Автоматизация сборки, тестирования и деплоя сервисов и моделей с использованием GitLab CI, Jenkins.
- Реализация multi-stage pipeline’ов (dev → staging → prod), механизма rollback’ов, канареечных релизов.
- Разворачивание БДНастройка и сопровождение систем observability:
- Внедрение мониторинга метрик (Prometheus + Grafana), трейсов и логов (OpenTelemetry).
- Настройка алертинга и диагностики инцидентов в production-среде.
Интеграция и поддержка API-сервисов для ML:
- Развёртывание и оптимизация inference-эндпоинтов на базе FastAPI, Flask
- Обеспечение отказоустойчивости, масштабируемости и безопасности API.
(Опционально) Оптимизация инфраструктуры под требования LLM:
- Настройка GPU-ресурсов, управление пулами ускорителей, конфигурация batching и quantization.
- Мониторинг latency, throughput и cost-efficiency inference-сервисов.
Какие знания и навыки для нас важны:
- Опыт работы в роли DevOps или MLOps-инженера — от 2 лет, включая эксплуатацию production-систем.
- Уверенное владение Docker: написание эффективных Dockerfile, управление образами, понимание слоёв, multi-stage сборок.
- Опыт развёртывания и управления приложениями в Kubernetes:
- Создание манифестов (Deployments, Services, ConfigMaps, Secrets и т.д.)
- Настройка Persistent Volumes (PV/PVC), StorageClass, работа с NFS или другими storage-провайдерами
- Конфигурация Ingress-контроллеров (Nginx, Traefik и др.) и балансировки трафика
- Понимание принципов масштабирования, self-healing, rolling updates
- Опыт настройки и интеграции систем аутентификации и авторизации (OAuth2, OIDC, JWT, Keycloak, Dex и др.) для сервисов и UI/API.
- Опыт внедрения и настройки систем мониторинга и observability:
- Prometheus + Grafana (метрики)
- OpenTelemetry или аналоги (трейсы, логи)
- Алертинг (Alertmanager, Opsgenie и пр.)
- Опыт проектирования и поддержки расширенных CI/CD-процессов (GitLab CI, GitHub Actions, Argo CD, Tekton и др.), включая:
- Мультиокружные деплои (dev/stage/prod)
- Canary- или blue/green-релизы
- Автоматизацию тестирования и rollback-механизмов
- Практический опыт работы с Python: написание скриптов автоматизации, взаимодействие с API, поддержка backend-сервисов (FastAPI/Flask и др.).
- Опыт развёртывания и оптимизации LLM-инференса:
- Работа с фреймворками типа vLLM или аналогами.
Просим обратить внимание, что иногда для установки/обновления нашего ПО, развернутого в контуре заказчика надо будет выезжать к заказчику.