Привет! Мы — команда платформы инференса Ozon.
Мы строим ML - инфраструктуру, отвечающую за финальный и самый критичный этап жизненного цикла моделей — их работу в реальных продуктах. Через нашу платформу проходят ранжирование, рекомендации, компьютерное зрение и другие ML-сценарии, влияющие на миллионы пользователей.
Наша миссия — создавать отказоустойчивую и высокопроизводительную платформу инференса, способную выдерживать пиковую нагрузку 200K+ RPS и эффективно управлять кластерами GPU-серверов.
Мы работаем на стыке сильной backend-инженерии (многопоточность, распределённые системы, Kubernetes) и глубокой ML-специфики с фокусом на оптимизацию работы моделей на GPU.
Наш стек
- Go, Java — платформенные сервисы
- Python — ML-интеграции
- Kubernetes, Docker, Nvidia Device Plugin
- Triton Inference Server
- Kafka, PostgreSQL, Redis, S3
- GitLab CI
Вы будете
- Проектировать и разрабатывать высоконагруженные сервисы для инференса ML-моделей в облачной среде.
- Оптимизировать выполнение моделей на GPU: batching, управление GPU-памятью, настройка GPU sharing (MIG), снижение latency.
- Интегрировать ML-рантаймы (TensorRT, ONNX Runtime) в платформенную инфраструктуру на Java и Go.
- Разрабатывать механизмы автоскейлинга и эффективного распределения нагрузки между инференс-сервисами.
- Обеспечивать SLA платформы: участвовать в разборе инцидентов, выявлять узкие места и внедрять системные решения для повышения стабильности и производительности.
Примеры задач
- Разработка унифицированного API инференса, абстрагирующего команды Data Science от особенностей GPU и рантаймов.
- Автоматическая оптимизация и конвертация моделей под различные типы GPU.
- Реализация асинхронного инференса с автоскейлингом в Kubernetes.
- Повышение утилизации GPU-кластера без деградации latency
Нам важно
- Коммерческий опыт разработки на Go или Java/Kotlin от 4-х лет.
- Опыт проектирования микросервисной архитектуры и работы с распределёнными системами.
- Понимание многопоточности и конкурентного программирования.
- Умение писать чистый, тестируемый и поддерживаемый код.
- Опыт работы с облачной инфраструктурой (желательно Kubernetes).
Будет плюсом
- Опыт работы с ML-инфраструктурой и GPU (CUDA, Triton, KServe).
- Понимание MLOps-практик.
- Опыт работы с Kafka или другими системами очередей.
- Опыт оптимизации высоконагруженных систем.