Международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках MLOps инженера в платформенную командy.
Чем предстоит заниматься:
ML-платформа (Kubeflow / ClearML):
- Развивать и поддерживать ML-платформу на базе Kubeflow и ClearML;
- Настраивать и оптимизировать ML-пайплайны: подготовка данных, обучение, валидация;
- Развивать объектное хранилище артефактов (MinIO / S3-compatible);
- Внедрять GitOps-подход для ML-инфраструктуры (ArgoCD, Helm, GitLab CI).
Inference-сервисы:
- Эксплуатировать и оптимизировать inference-сервисы в Kubernetes;
- Обеспечивать observability: метрики (Victoria Metrics, Grafana), логи (Vector);
- Оптимизировать latency и throughput inference-пайплайнов.
Сопровождение пользователей ML-платформы:
- Помогать data scientist'ам и ML-инженерам использовать платформу эффективно;
- Разрабатывать документацию и runbooks по работе с ML-платформой;
- Участвовать в onboarding новых ML-проектов на платформу;
- Проводить root cause analysis инцидентов ML-инфраструктуры.
Какие навыки нужны:
- Опыт работы с Kubernetes в production от 3 лет;
- Знание ML-экосистемы: пайплайны обучения, версионирование моделей, эксперименты;
- Опыт с одной из платформ: Kubeflow, MLflow, ClearML или аналогами;
- Уверенное программирование на Python (автоматизация, скрипты, ML-код);
- Опыт с системами мониторинга (Prometheus, Victoria Metrics, Grafana);
- Знание GitOps и ArgoCD;
- Понимание работы GPU в Kubernetes (расписание, квоты, изоляция);
- Опыт с объектным хранилищем S3-compatible (MinIO, AWS S3 или аналоги).
Будет плюсом:
- Опыт с Kuberay (Ray clusters для распределённого обучения);
- Знание MLflow (эксперименты, model registry, serving);
- Знание inference-фреймворков: vLLM, Triton Inference Server, TorchServe, SGLang;
- Опыт с векторными базами данных (Milvus, Qdrant, Weaviate);
- Понимание LLM fine-tuning и deployment (LoRA, quantization);
- Опыт с OpenWebUI или аналогичными LLM-интерфейсами;
- Сертификации Kubernetes (CKA) или cloud (AWS, GCP);
- Опыт с HashiCorp Vault для управления секретами ML-сервисов;
Что компания может предложить:
Профессиональное развитие:
- Оплата сертификаций и курсов;
- Поездки на ИТ-конференции и митапы за счет компании;
- Корпоративные скидки на занятия по английскому/сербскому языку.
Социальные гарантии:
- Помощь с релокацией, оформление рабочей визы, помощь в оформлении документов для членов семьи;
- Частичная компенсация аренды жилья;
- Белая заработная плата, которая зависит от пожеланий, скиллов и опыта;
- Оплачиваемый отпуск и больничные;
- Годовой бонус по результатам работы;
- Реферальная программа за успешную рекомендацию кандидата;
- Подарки для сотрудников и их детей.
Комфортные условия работы:
- Формат работы - офис;
- 4 day-off в год за счет компании;
- Корпоративное питание: завтраки и обеды;
- Компенсация абонемента в спортзал;
- Рабочее место оборудовано современной техникой с учетом ваших пожеланий;
- Отсутствие бюрократии, вопросы решаются оперативно.