Мы развиваем AI направление и создаем прикладные сервисы на базе GenAI, LLM, RAG, embeddings, vector search и AI агентов. Команда отвечает за полный путь AI сервиса: архитектуру, backend интеграции, деплой, мониторинг, поддержку production и развитие после запуска. В работе много инженерных задач вокруг inference, API, очередей, хранилищ, векторного поиска, локальных моделей и внешних LLM провайдеров. Ищем AI Platform Engineer, который будет помогать AI команде быстрее доводить продукты до production и держать их стабильными. В этой роли важно уверенно работать с инфраструктурой и кодом: понимать, как сервис собирается, запускается, обрабатывает запросы, использует зависимости, работает с моделью и ведет себя под нагрузкой.
Обязанности:
- Развивать и поддерживать платформенную инфраструктуру для AI и ML сервисов в cloud и on-prem окружениях.
- Работать с Kubernetes окружениями для AI сервисов: Azure AKS, AWS EKS или self-hosted кластеры, namespaces, ingress, storage, secrets, autoscaling и resource management.
- Разворачивать local LLM и open source модели в закрытом контуре: готовить GPU окружение, настраивать model serving, управлять ресурсами и следить за стабильностью inference.
- Работать с GPU инфраструктурой для AI workloads: NVIDIA DGX или аналогичные GPU серверы, CUDA runtime, драйверы, NVIDIA Container Toolkit, GPU Operator, node labels, taints, tolerations и resource requests.
- Разворачивать и сопровождать инфраструктурные компоненты и хранилища, которые нужны AI сервисам: PostgreSQL, Redis, S3 совместимые хранилища, Qdrant, Milvus или аналогичные vector database решения.
- Настраивать деплой AI и ML сервисов, включая локальный inference, vLLM, TGI, Ollama, HuggingFace Transformers и интеграции с облачными LLM провайдерами, включая OpenAI и аналогичные сервисы.
- Строить и поддерживать CI/CD процессы в GitLab CI, GitHub Actions или Jenkins.
- Контейнеризировать сервисы, оптимизировать сборку образов, деплой, scaling и управление ресурсами.
- Настраивать мониторинг, логирование, трассировку и алертинг с использованием Prometheus, Grafana, Loki и OpenTelemetry.
- Поддерживать production среду: разбирать инциденты, находить причины сбоев, работать с логами, метриками, конфигурацией, сетями, ресурсами и кодом приложения.
- Помогать Data Science и backend командам быстрее выпускать AI сервисы и поддерживать стабильный ML serving.
- Автоматизировать рутинные операции, улучшать шаблоны деплоя, Helm чарты, скрипты и внутренние инструменты команды.
Требования: - Опыт работы DevOps, Cloud, Platform или System Engineer от 2 лет.
- Практические навыки Python или Bash для автоматизации, написания скриптов и работы с сервисным кодом.
- Понимание backend сервисов на Python: API, зависимости, конфигурация, env, логирование, обработка ошибок. Опыт с FastAPI или Flask будет плюсом.
- Практический опыт работы с Kubernetes: деплой, конфигурация, networking, storage, scaling и troubleshooting.
- Опыт работы с облачной инфраструктурой Azure или AWS, желательно с managed Kubernetes: AKS или EKS.
- Опыт развертывания local LLM или ML моделей в on-prem окружении либо на GPU серверах.
- Понимание GPU стека для AI workloads: CUDA, NVIDIA drivers, NVIDIA Container Toolkit, GPU Operator, device plugins, resource limits и особенности запуска контейнеров с GPU.
- Опыт работы с model serving инструментами: vLLM, TGI, Ollama, HuggingFace Transformers или аналогичные решения.
- Опыт работы с Docker: сети, volumes, multi stage builds, сборка и запуск контейнеров.
- Опыт работы с Terraform, Ansible или Helm.
- Опыт построения CI/CD процессов и понимание Git flow.
- Опыт настройки мониторинга и логирования на базе Prometheus, Grafana и Loki.
- Опыт развертывания или сопровождения баз данных и хранилищ для приложений: PostgreSQL, Redis, S3 совместимые решения.
- Понимание задач вокруг векторных БД и AI storage слоя: Qdrant, Milvus или аналогичные решения.
- Умение диагностировать и устранять сбои в production среде.
- Готовность погружаться в код, логи приложения, метрики и поведение сервиса в runtime.
Будет плюсом:
- Опыт backend разработки на Python в production проектах.
- Опыт работы с NVIDIA DGX, MIG, GPU partitioning или multi GPU serving.
- Опыт с Kubeflow.
- Базовое понимание Apache Spark.
- Опыт работы с Kafka, RabbitMQ, Celery или другими очередями и брокерами.
- Опыт работы с Vault, KMS и управлением секретами.
- Опыт развертывания решений в закрытом контуре.
В сопроводительном письме, пожалуйста, укажите свои зарплатные ожидания, спасибо! ❤️
Наши условия ниже :)