AI Platform Engineer

Beeline, ТМ

AI Platform Engineer

Алматы, Политехническая улица, 2

Метро: Абая

Описание вакансии

Мы развиваем AI направление и создаем прикладные сервисы на базе GenAI, LLM, RAG, embeddings, vector search и AI агентов. Команда отвечает за полный путь AI сервиса: архитектуру, backend интеграции, деплой, мониторинг, поддержку production и развитие после запуска. В работе много инженерных задач вокруг inference, API, очередей, хранилищ, векторного поиска, локальных моделей и внешних LLM провайдеров. Ищем AI Platform Engineer, который будет помогать AI команде быстрее доводить продукты до production и держать их стабильными. В этой роли важно уверенно работать с инфраструктурой и кодом: понимать, как сервис собирается, запускается, обрабатывает запросы, использует зависимости, работает с моделью и ведет себя под нагрузкой.

Обязанности:

  • Развивать и поддерживать платформенную инфраструктуру для AI и ML сервисов в cloud и on-prem окружениях.
  • Работать с Kubernetes окружениями для AI сервисов: Azure AKS, AWS EKS или self-hosted кластеры, namespaces, ingress, storage, secrets, autoscaling и resource management.
  • Разворачивать local LLM и open source модели в закрытом контуре: готовить GPU окружение, настраивать model serving, управлять ресурсами и следить за стабильностью inference.
  • Работать с GPU инфраструктурой для AI workloads: NVIDIA DGX или аналогичные GPU серверы, CUDA runtime, драйверы, NVIDIA Container Toolkit, GPU Operator, node labels, taints, tolerations и resource requests.
  • Разворачивать и сопровождать инфраструктурные компоненты и хранилища, которые нужны AI сервисам: PostgreSQL, Redis, S3 совместимые хранилища, Qdrant, Milvus или аналогичные vector database решения.
  • Настраивать деплой AI и ML сервисов, включая локальный inference, vLLM, TGI, Ollama, HuggingFace Transformers и интеграции с облачными LLM провайдерами, включая OpenAI и аналогичные сервисы.
  • Строить и поддерживать CI/CD процессы в GitLab CI, GitHub Actions или Jenkins.
  • Контейнеризировать сервисы, оптимизировать сборку образов, деплой, scaling и управление ресурсами.
  • Настраивать мониторинг, логирование, трассировку и алертинг с использованием Prometheus, Grafana, Loki и OpenTelemetry.
  • Поддерживать production среду: разбирать инциденты, находить причины сбоев, работать с логами, метриками, конфигурацией, сетями, ресурсами и кодом приложения.
  • Помогать Data Science и backend командам быстрее выпускать AI сервисы и поддерживать стабильный ML serving.
  • Автоматизировать рутинные операции, улучшать шаблоны деплоя, Helm чарты, скрипты и внутренние инструменты команды.
Требования:
  • Опыт работы DevOps, Cloud, Platform или System Engineer от 2 лет.
  • Практические навыки Python или Bash для автоматизации, написания скриптов и работы с сервисным кодом.
  • Понимание backend сервисов на Python: API, зависимости, конфигурация, env, логирование, обработка ошибок. Опыт с FastAPI или Flask будет плюсом.
  • Практический опыт работы с Kubernetes: деплой, конфигурация, networking, storage, scaling и troubleshooting.
  • Опыт работы с облачной инфраструктурой Azure или AWS, желательно с managed Kubernetes: AKS или EKS.
  • Опыт развертывания local LLM или ML моделей в on-prem окружении либо на GPU серверах.
  • Понимание GPU стека для AI workloads: CUDA, NVIDIA drivers, NVIDIA Container Toolkit, GPU Operator, device plugins, resource limits и особенности запуска контейнеров с GPU.
  • Опыт работы с model serving инструментами: vLLM, TGI, Ollama, HuggingFace Transformers или аналогичные решения.
  • Опыт работы с Docker: сети, volumes, multi stage builds, сборка и запуск контейнеров.
  • Опыт работы с Terraform, Ansible или Helm.
  • Опыт построения CI/CD процессов и понимание Git flow.
  • Опыт настройки мониторинга и логирования на базе Prometheus, Grafana и Loki.
  • Опыт развертывания или сопровождения баз данных и хранилищ для приложений: PostgreSQL, Redis, S3 совместимые решения.
  • Понимание задач вокруг векторных БД и AI storage слоя: Qdrant, Milvus или аналогичные решения.
  • Умение диагностировать и устранять сбои в production среде.
  • Готовность погружаться в код, логи приложения, метрики и поведение сервиса в runtime.

Будет плюсом:

  • Опыт backend разработки на Python в production проектах.
  • Опыт работы с NVIDIA DGX, MIG, GPU partitioning или multi GPU serving.
  • Опыт с Kubeflow.
  • Базовое понимание Apache Spark.
  • Опыт работы с Kafka, RabbitMQ, Celery или другими очередями и брокерами.
  • Опыт работы с Vault, KMS и управлением секретами.
  • Опыт развертывания решений в закрытом контуре.

В сопроводительном письме, пожалуйста, укажите свои зарплатные ожидания, спасибо! ❤️

Наши условия ниже :)

Навыки
  • Kuberflow
  • Kafka
  • RabbitMQ
  • Celery
  • KMS
  • Vault
  • Python
  • CI/CD
  • PostgreSQL
  • Redis
  • S3
  • Git flow
  • GPU
  • model serving
  • DevOps
  • cloud
  • FastAPI
Посмотреть контакты работодателя

Адрес

Похожие вакансии

2ГИС-Справочник Двух Столиц

AI Engineer

2ГИС-Справочник Двух Столиц

  • Алматы

  • Не указана

Рекомендуем
Страховая компания Freedom Insurance

ML-инженер

Страховая компания Freedom Insurance

  • Алматы

  • Не указана

Рекомендуем
  • Алматы

  • Не указана

Рекомендуем
BI Group

AI Engineer

BI Group

  • Алматы

  • Не указана

Inkar
  • Алматы

  • Не указана

Choco (ТОО Chocofamily)
  • Алматы

  • Не указана

Plexy Platform Kazakhstan

Senior DevOps Engineer

Plexy Platform Kazakhstan

  • Алматы

  • Не указана

Kaspi.kz

Data Engineer

Kaspi.kz

  • Алматы

  • Не указана

WSE
  • Алматы

  • Не указана

Халык-Life, АО

Data Engineer

Халык-Life, АО

  • Алматы

  • Не указана

Freedom Holding Operations

Microsoft 365 Automation Engineer

Freedom Holding Operations

  • Алматы

  • Не указана

Teez
  • Алматы

  • Не указана

Prime Source
  • Алматы

  • Не указана

Atamura Group

AI Builder

Atamura Group

  • Алматы

  • Не указана

Freedom Holding Operations
  • Алматы

  • Не указана

Freedom Media

AI Lead

Freedom Media

  • Алматы

  • Не указана

Казахстанская фондовая биржа

Data Engineer (DWH)

Казахстанская фондовая биржа

  • Алматы

  • Не указана

Главный специалист Управления надзорных технологий и ИИ (AI-инженер)

РГП Агентство Республики Казахстан по регулированию и развитию финансового рынка

  • Алматы

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию