AI Platform Engineer

Алматы, Политехническая улица, 2

Метро: Абая

Описание вакансии

Мы развиваем AI направление и создаем прикладные сервисы на базе GenAI, LLM, RAG, embeddings, vector search и AI агентов. Команда отвечает за полный путь AI сервиса: архитектуру, backend интеграции, деплой, мониторинг, поддержку production и развитие после запуска. В работе много инженерных задач вокруг inference, API, очередей, хранилищ, векторного поиска, локальных моделей и внешних LLM провайдеров. Ищем AI Platform Engineer, который будет помогать AI команде быстрее доводить продукты до production и держать их стабильными. В этой роли важно уверенно работать с инфраструктурой и кодом: понимать, как сервис собирается, запускается, обрабатывает запросы, использует зависимости, работает с моделью и ведет себя под нагрузкой.

Обязанности:

Развивать и поддерживать платформенную инфраструктуру для AI и ML сервисов в cloud и on-prem окружениях.
Работать с Kubernetes окружениями для AI сервисов: Azure AKS, AWS EKS или self-hosted кластеры, namespaces, ingress, storage, secrets, autoscaling и resource management.
Разворачивать local LLM и open source модели в закрытом контуре: готовить GPU окружение, настраивать model serving, управлять ресурсами и следить за стабильностью inference.
Работать с GPU инфраструктурой для AI workloads: NVIDIA DGX или аналогичные GPU серверы, CUDA runtime, драйверы, NVIDIA Container Toolkit, GPU Operator, node labels, taints, tolerations и resource requests.
Разворачивать и сопровождать инфраструктурные компоненты и хранилища, которые нужны AI сервисам: PostgreSQL, Redis, S3 совместимые хранилища, Qdrant, Milvus или аналогичные vector database решения.
Настраивать деплой AI и ML сервисов, включая локальный inference, vLLM, TGI, Ollama, HuggingFace Transformers и интеграции с облачными LLM провайдерами, включая OpenAI и аналогичные сервисы.
Строить и поддерживать CI/CD процессы в GitLab CI, GitHub Actions или Jenkins.
Контейнеризировать сервисы, оптимизировать сборку образов, деплой, scaling и управление ресурсами.
Настраивать мониторинг, логирование, трассировку и алертинг с использованием Prometheus, Grafana, Loki и OpenTelemetry.
Поддерживать production среду: разбирать инциденты, находить причины сбоев, работать с логами, метриками, конфигурацией, сетями, ресурсами и кодом приложения.
Помогать Data Science и backend командам быстрее выпускать AI сервисы и поддерживать стабильный ML serving.
Автоматизировать рутинные операции, улучшать шаблоны деплоя, Helm чарты, скрипты и внутренние инструменты команды.

Требования:

Опыт работы DevOps, Cloud, Platform или System Engineer от 2 лет.
Практические навыки Python или Bash для автоматизации, написания скриптов и работы с сервисным кодом.
Понимание backend сервисов на Python: API, зависимости, конфигурация, env, логирование, обработка ошибок. Опыт с FastAPI или Flask будет плюсом.
Практический опыт работы с Kubernetes: деплой, конфигурация, networking, storage, scaling и troubleshooting.
Опыт работы с облачной инфраструктурой Azure или AWS, желательно с managed Kubernetes: AKS или EKS.
Опыт развертывания local LLM или ML моделей в on-prem окружении либо на GPU серверах.
Понимание GPU стека для AI workloads: CUDA, NVIDIA drivers, NVIDIA Container Toolkit, GPU Operator, device plugins, resource limits и особенности запуска контейнеров с GPU.
Опыт работы с model serving инструментами: vLLM, TGI, Ollama, HuggingFace Transformers или аналогичные решения.
Опыт работы с Docker: сети, volumes, multi stage builds, сборка и запуск контейнеров.
Опыт работы с Terraform, Ansible или Helm.
Опыт построения CI/CD процессов и понимание Git flow.
Опыт настройки мониторинга и логирования на базе Prometheus, Grafana и Loki.
Опыт развертывания или сопровождения баз данных и хранилищ для приложений: PostgreSQL, Redis, S3 совместимые решения.
Понимание задач вокруг векторных БД и AI storage слоя: Qdrant, Milvus или аналогичные решения.
Умение диагностировать и устранять сбои в production среде.
Готовность погружаться в код, логи приложения, метрики и поведение сервиса в runtime.