Компания DCS — это команда инженеров, исследователей и разработчиков, создающих решения на основе машинного обучения, генеративных моделей (LLM) и компьютерного зрения (CV). Мы работаем над продуктами в области автоматизации, анализа данных и внедрения ML-сервисов для корпоративных клиентов и хотим усилить команду опытным DevOps-инженером.
Чем предстоит заниматься:
1. Инфраструктура и развёртывание
Проектировать и настраивать инфраструктуру для ML-сервисов в облаках (AWS / GCP / Azure / Yandex Cloud / VK Cloud и др.).
Автоматизировать развёртывание вычислительных ресурсов (GPU/CPU-кластеры, контейнеры, serverless-функции) с помощью Terraform / Ansible / Pulumi.
Настраивать контейнеризацию (Docker) и оркестрацию (Kubernetes, Helm, ArgoCD).
Создавать CI/CD-пайплайны (GitLab CI/CD, GitHub Actions, Jenkins) для сервисов и моделей.
Разрабатывать и сопровождать Helm-чарты и конфигурации для автоматического деплоя.
2. MLOps и сопровождение моделей
Организовывать полный жизненный цикл моделей: обучение → упаковка → деплой → мониторинг → переобучение.
Настраивать и поддерживать ML-ориентированные хранилища артефактов (DVC, MLflow, W&B).
Поддерживать пайплайны подготовки данных и обучения моделей (Airflow, Kubeflow, Prefect).
Контролировать версии данных и моделей, управлять Docker-репозиториями (Harbor, ECR, GCR).
Настраивать мониторинг качества моделей (drift, latency, ошибки инференса).
3. Сетевое взаимодействие и интеграции
Настраивать безопасное взаимодействие сервисов (VPN, bastion-хосты, VPC, private endpoints).
Организовывать API-шлюзы, балансировщики, SSL/TLS, OAuth, SSO.
Настраивать обмен данными через REST/gRPC/WebSocket и интеграции с Kafka / RabbitMQ.
Взаимодействовать с инфраструктурой заказчика при деплое сервисов.
4. Надёжность, масштабируемость и безопасность
Настраивать отказоустойчивые и масштабируемые кластеры для LLM и CV-инференса.
Внедрять мониторинг, логирование и алертинг (Prometheus, Grafana, ELK, Loki, OpenTelemetry).
Оптимизировать ресурсы (GPU/CPU/память) и масштабировать системы под нагрузку.
Реализовывать политики безопасности и секрет-менеджмента (Vault, AWS Secrets Manager, KMS).
Настраивать резервное копирование и disaster-recovery.
5. Администрирование и эксплуатация
Администрировать Linux-сервера, сети и хранилища данных.
Поддерживать dev/stage/prod-окружения.
Вести документацию по инфраструктуре и процессам деплоя.
Автоматизировать рутинные задачи (bash/python-скрипты, Terraform modules, Ansible playbooks).
Оказывать техническую поддержку команде разработки и исследователям ML.
Мы ожидаем, что ты:
Имеешь опыт работы DevOps/SRE/Infra-инженером от 2 лет.
Уверенно работаешь с Docker, Kubernetes, Terraform, CI/CD.
Понимаешь основы MLOps и умеешь сопровождать ML-модели.
Имеешь опыт работы с облачными провайдерами (AWS, GCP, Yandex Cloud и др.).
Пишешь скрипты на Bash / Python.
Понимаешь сетевые протоколы, безопасность и интеграции.
Будет плюсом:
Опыт с MLflow / DVC / Airflow / Kubeflow.
Опыт оптимизации GPU-кластеров и работы с LLM-инференсом.
Мы предлагаем:
Формат: полностью удалённая работа.
Участие в ML-/LLM-проектах федерального уровня.
Возможность развиваться в области MLOps и работы с крупными моделями.
Команду сильных инженеров и исследователей.