Вместе с нами тебе предстоит:
- +Проектирование, развёртывание и развитие инфраструктуры платформы искусственного интеллекта (on‑prem и облако): Kubernetes‑кластеры, GPU‑ноды, storage, сети, безопасность.
- +Построение и поддержка CI/CD/CT‑пайплайнов для ML‑моделей и сервисов: от артефакта DS до продакшн‑инференса с откатами и канареечными релизами.
- +Интеграция и эксплуатация LLM/ML‑сервисов для внутренних команд и рыночных внедрений: упаковка моделей в сервисы, конфигурация autoscaling, SLA, observability.
- +Настройка мониторинга и алертинга по инфраструктуре и моделям (метрики ресурсов, latency, ошибки, дрейф данных), реагирование на инциденты, участие в post‑mortem.
- +Автоматизация ML‑пайплайнов: подготовка данных, обучение, переобучение, регистрация моделей, управление версиями и окружениями.
- +Поддержка внедрений у клиентов: тиражирование платформенных компонентов, адаптация инфраструктуры под контур заказчика, участие в performance‑оптимизации и cost‑cutting (GPU/CPU).
Какие знания и навыки для нас важны:
- +Глубокое понимание жизненного цикла ML‑модели: от экспериментов до продакшн‑инференса и мониторинга.
- +Уверенный Linux, сетевые основы, безопасность, работа с контейнерами и оркестраторами.
- +Опыт построения CI/CD‑пайплайнов для сервисов и ML‑артефактов (Docker images, модели, данные).
- +Опыт с LLM/GenAI‑платформами: vLLM, TGI, Hugging Face, Triton/ONNX Runtime, оптимизация инференса.
Знание стека: - +Языки: Python (утилиты, обвязка) / Bash.
- +Контейнеризация и оркестрация: Docker, Docker Compose, Kubernetes (Helm, Operators), желательно Kubeflow.
- +CI/CD: GitLab CI / GitHub Actions / Jenkins / Argo CD.
- +Инфраструктура: Terraform / Ansible, конфигурация Linux‑серверов, Nginx, cert‑manager.
- +Data/ML‑инфраструктура: Apache Kafka, Airflow/Argo Workflows, S3‑совместимые хранилища, MLflow/Weights&Biases.