Астана, проспект Республики, 34А
ТОО CROCOS реализует проект внедрения AI-диспетчера в контакт-центр. Ищем DevOps/MLOps инженера, который развернёт и обеспечит стабильную работу AI-инфраструктуры на серверах заказчика с жёсткими требованиями к SLA.
Обязанности:Развёртывание и настройка GPU-сервера (≥80 ГБ GPU) на инфраструктуре заказчика (on-premise)
Установка и конфигурирование среды для LLM-инференса (CUDA, vLLM / llama.cpp, Docker)
Настройка сетевой инфраструктуры: доступ low-code платформы к LLM через внутренний REST API
Обеспечение SLA: доступность ≥99,5%/мес, регламентные работы ≤4 ч/мес
Настройка мониторинга и алертов: Severity 1 — начало диагностики ≤20 мин, восстановление ≤4 ч
CI/CD для обновлений AI-компонентов без остановки сервиса
Настройка логирования разговоров и системных событий
Резервное копирование конфигураций, моделей и баз знаний
Поддержка работоспособности в течение 4 месяцев проекта + передача на гарантийное сопровождение
Написание раздела технической документации по инфраструктуре (установка, конфигурация, troubleshooting)
Требования:
Опыт DevOps / системного администрирования — от 2 лет
Уверенное владение Linux (Ubuntu/CentOS): установка ПО, настройка сети, firewall, systemd
Опыт работы с Docker и Docker Compose
Базовое понимание GPU-инфраструктуры: установка драйверов NVIDIA, CUDA, nvidia-docker
Опыт настройки мониторинга (Prometheus + Grafana или аналоги)
Понимание REST API на уровне администратора (nginx reverse proxy, SSL)
Опыт настройки резервного копирования
Будет плюсом:
Опыт работы с vLLM, Ollama, llama.cpp или другими LLM-серверами
Опыт с Kubernetes или оркестрацией контейнеров
Знакомство с MLflow, Ray Serve или другими MLOps-инструментами
Опыт работы в on-premise корпоративных средах (файрволы, внутренние сети, сертификаты)
Проектная (4 месяца) с возможностью гарантийного сопровождения
Выезды на площадку заказчика + удалённый мониторинг
5/2, дежурство по SLA
Linux, Docker, CUDA, NVIDIA GPU, Prometheus/Grafana, nginx