ML Ops специалист

RWB (Wildberries & Russ)

ML Ops специалист

Москва, улица Большая Ордынка, 40с4

Метро: Октябрьская

Описание вакансии

Мы команда ML Platform в отделе Trust & Safety. Отвечаем за инфраструктуру машинного обучения для модерации контента и карточек товаров Wildberries. Ежедневно через наши системы проходят десятки миллионов карточек, мы обрабатываем сотни миллионов решений по более чем 100 ML-моделям. Модели инферятся через Nvidia Triton Inference Server на GPU-кластерах.

Исторически ML Platform выросла из модерации, сейчас становимся самостоятельным юнитом и расширяемся на все направления T&S. В отделе работают десятки DS, единой платформенной инфраструктуры пока нет - каждая команда решает по-своему.

Ищем MLOps инженера на инфраструктурный слой платформы: управление GPU-кластером, ML-тулинг (ClearML, Kubeflow), среда обучения (JupyterHub), стандартизация пайплайнов. Строим с прицелом на масштабирование и мультитенантность.

Наш стек: ClearML, Kubeflow, Nvidia Triton Inference Server, pgvector, FAISS, JupyterHub, Python, Kubernetes, Helm, GitLab CI, Grafana, Prometheus​​​​​​​

Вам предстоит:

  • Отвечать за GPU-кластер целиком: от драйверов и настройки нод до утилизации, планирования ёмкости и стратегии разделения ресурсов между командами

  • Развёртывать и поддерживать ML-инструменты для DS-команд: ClearML, Kubeflow, JupyterHub

  • Строить пайплайны для ML-моделей

  • Оптимизировать inference-инфраструктуру: bin-packing, автоскейлинг, профилирование

  • Интегрировать Feature Store / Embedding Store (pgvector, FAISS)

  • Общаться с DS-командами, понимать их потребности и переводить в инфраструктурные решения

  • Масштабировать платформу на весь отдел Trust & Safety

Вы нам подходите, если у вас есть:
  • Глубокое понимание kubernetes (операторы, scheduling, resource management, GPU в K8s)

  • Практический опыт с NVIDIA GPU

  • Опыт развёртывания и поддержки MLOps-платформ для команд DS (например, ClearML, MLflow, Kubeflow, Airflow или аналогов)

  • Проактивность и желание строить платформу, а не просто поддерживать сервисы

  • Умение взаимодействовать с DS-командами и переводить потребности в технические решения

Будет плюсом:

  • Опыт с Triton Inference Server или аналогами

  • Понимание векторных БД и их оптимизации

  • Работа с Clearml, Kubeflow и Airflow

  • Опыт разделения и виртуализации GPU в Kubernetes для multi-tenant окружений (MIG, HAMi или аналоги)

Навыки
  • Linux
  • Kubernetes
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Газпромбанк

Senior ML Engineer (LLM, RAG, Agents)

Газпромбанк

  • Москва

  • Не указана

Рекомендуем
ГКУ Инфогород

ML-инженер

ГКУ Инфогород

  • Москва

  • Не указана

Рекомендуем
AVO.UZ
  • Москва

  • Не указана

Рекомендуем
Advantage Solutions
  • Москва

  • Не указана

Центральный банк Российской Федерации (Банк России)

Lead/Senior ML Engineer (NLP/RAG)

Центральный банк Российской Федерации (Банк России)

  • Москва

  • до 500000 RUR

СБЕР
  • Москва

  • до 500000 RUR

Aviasales.ru

ML Engineer

Aviasales.ru

  • Москва

  • до 500000 RUR

«UZUM TECHNOLOGIES»
  • Москва

  • до 500000 RUR

Интерфакс

ML - инженер (СКАН)

Интерфакс

  • Москва

  • до 500000 RUR

Астор

ML Engineer

Астор

  • Москва

  • до 280000 RUR

М.Видео-Эльдорадо

MLOps специалист

М.Видео-Эльдорадо

  • Москва

  • до 280000 RUR

RedLab
  • Москва

  • до 280000 RUR

HeadHunter
  • Москва

  • до 280000 RUR

СБЕР
  • Москва

  • до 280000 RUR

КОНТРОЛ+

ML engineer

КОНТРОЛ+

  • Москва

  • до 280000 RUR

Цифровой аудит
  • Москва

  • до 280000 RUR

SkillStaff
  • Москва

  • до 280000 RUR

Coleman Group
  • Москва

  • от 180000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию