Москва, Крылатская улица, 15
Метро: КрылатскоеМы в поисках MLOps-иженера в команду обеспечению надежности машинного обучения. Ты будешь участвовать в проектировании и развитии платформы для полного жизненного цикла машинного обучения: от экспериментов и обучения моделей до промышленного сервинга, мониторинга, переобучения и вывода моделей из эксплуатации. Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать архитектурные и инженерные решения, автоматизировать процессы и повышать надежность ML-платформы.
Чем предстоит заниматься:
Мы ожидаем:
Опыт внедрения и сопровождения Kubernetes-кластеров для сервинга ML-моделей на GPU и CPU
Практический опыт эксплуатации инструментов для деплоя и обслуживания моделей: Triton Inference Server, BentoML или аналогичных решений
Опыт запуска и поддержки инференс-движков в Kubernetes
Понимание подходов к автоскейлингу, балансировке нагрузки и маршрутизации запросов для ML-сервисов
Понимание принципов мониторинга качества, поведения и эксплуатационных параметров ML-моделей
Опыт настройки GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-enabled Docker, nvidia-container-toolkit
Понимание жизненного цикла ML-экспериментов и инструментов их трекинга: MLflow, ClearML или аналогов
Уверенное владение Python для автоматизации, разработки внутренних инструментов и интеграций
Уверенный опыт работы с Kubernetes в production: workloads, операторы, Helm, HPA, ingress, storage, observability, диагностика и устранение проблем
Опыт описания и автоматизации инфраструктуры на базе IaC: Terraform, Ansible, GitOps-подходы
Опыт работы с системами контроля версий и организации CI/CD (GitLab, Bitbucket, Bamboo)
Опыт работы с Docker и OCI-образами: сборка, оптимизация, публикация и эксплуатация
Уверенное владение Linux: настройка, мониторинг, диагностика сетевых, файловых, ресурсных и производительных проблем
Опыт настройки мониторинга и алертинга: Prometheus Stack
Опыт безопасной работы с секретами, токенами, сертификатами и чувствительными данными
Будет плюсом
Опыт работы с Yandex Cloud, bare metal-инфраструктурой или гибридными окружениями
Опыт работы с Kubeflow Pipelines, Kubeflow Notebooks, Kubeflow Katib, Kubeflow KServe
Опыт работы с Feature Store: Feast, Aerospike, key-value-хранилища или аналогичные решения
Опыт работы с DVC, Git LFS, реестрами моделей и хранилищами ML-артефактов
Опыт работы со Spark, Trino, Hadoop, JupyterHub
«UZUM TECHNOLOGIES»
Москва
до 400000 RUR