Развёртывание и масштабирование инфраструктуры: проектирование, развертывание и конфигурация серверной и облачной инфраструктуры для запуска моделей ML/LLM. Обеспечение масштабируемости (например, настройка кластеров Kubernetes для обслуживания моделей под высокими нагрузками);
CI/CD: построение конвейеров непрерывной интеграции и доставки изменений (в частности для деплоя LLM-моделей);
Мониторинг и надежность: внедрение систем мониторинга производительности моделей и сервисов (метрики времени отклика, использование ресурсов, качество ответов моделей). Настройка алертинга и логирования для быстрого выявления сбоев или деградации производительности систем;
Оптимизация и эффективность: анализ производительности инфраструктуры и внесение улучшений для оптимизации скорости работы систем (например, использование GPU/TPU). Контроль за эффективным использованием ресурсов и затратами;
Изучение и внедрение новых инструментов в процессы работы;
Сотрудничество с командами. Консультирование коллег по лучшим практикам DevOps/MLOps/LLMOps.
Что мы ждём:
Языки и фреймворки: Python (в том числе библиотеки для ML: scikit-learn, PyTorch, TensorFlow для базового понимания моделей), скрипты Bash для автоматизации;
Контейнеры и оркестрация: Docker, Kubernetes (kubectl, Helm), Docker Compose для локального тестирования;
CI/CD и DevOps: Git для контроля версий, платформы CI/CD (GitLab, Jenkins), система управления конфигурациями Ansible, Terraform для инфраструктуры как кода;
Мониторинг и логирование: Prometheus/Grafana, стек ELK/EFK, а также облачные аналоги (например, CloudWatch, Stackdriver) при работе в облаке;
Прочее: MLflow или DVC для версионирования данных и моделей; Kafka или RabbitMQ для потоковой обработки, если используется; инструменты для деплоя моделей (TensorFlow Serving, TorchServe);