Проектирование, развёртывание и развитие инфраструктуры платформы искусственного интеллекта (on‑prem и облако): Kubernetes‑кластеры, GPU‑ноды, storage, сети, безопасность.
Построение и поддержка CI/CD/CT‑пайплайнов для ML‑моделей и сервисов: от артефакта DS до продакшн‑инференса с откатами и канареечными релизами.
Интеграция и эксплуатация LLM/ML‑сервисов для внутренних команд и рыночных внедрений: упаковка моделей в сервисы, конфигурация autoscaling, SLA, observability.
Настройка мониторинга и алертинга по инфраструктуре и моделям (метрики ресурсов, latency, ошибки, дрейф данных), реагирование на инциденты, участие в post‑mortem.
Автоматизация ML‑пайплайнов: подготовка данных, обучение, переобучение, регистрация моделей, управление версиями и окружениями.
Поддержка внедрений у клиентов: тиражирование платформенных компонентов, адаптация инфраструктуры под контур заказчика, участие в performance‑оптимизации и cost‑cutting (GPU/CPU).
Какие навыки и знания для нас важны:
Высшее образование.
Опыт работы: 5+ лет.
Глубокое понимание жизненного цикла ML‑модели: от экспериментов до продакшн‑инференса и мониторинга.
Уверенный Linux, сетевые основы, безопасность, работа с контейнерами и оркестраторами.
Опыт построения CI/CD‑пайплайнов для сервисов и ML‑артефактов (Docker images, модели, данные).
Знания и навыки (желательные):
Опыт с LLM/GenAI‑платформами: vLLM, TGI, Hugging Face, Triton/ONNX Runtime, оптимизация инференса.
Опыт построения feature store, model registry, ML pipelines (Kubeflow, MLflow, Airflow, Argo Workflows).
Работа в гибридной инфраструктуре: on‑prem кластеры + публичные облака (T1 Cloud, VK Cloud, Yandex Cloud и др.).
Понимание cost‑optimization: FinOps для GPU/CPU, автобалансировка нагрузок.
Требования к личным качествам: ответственность, фокус на результат.
Знание иностранного языка (уровень): английский - от B2