Привет! Это команда ML Инфраструктуры Ozon Tech.
Мы развиваем платформенные сервисы, которые упрощают и стандартизируют процесс создания и эксплуатации ML-решений в Ozon. Наша цель — дать дата-сайентистам и аналитикам удобные и мощные инструменты, чтобы быстрее и надёжнее запускать эксперименты, разворачивать модели и управлять вычислительными ресурсами. Мы создаём инфраструктуру, которая объединяет команды в единую ML-экосистему.
В команде работают инженеры с сильной экспертизой. Мы тесно сотрудничаем с дата-сайентистами, аналитиками, SRE и другими платформенными командами.
Кого мы ищем:
Ищем backend-инженера (Java/Kotlin), который поможет нам развивать ML-инфраструктуру и строить надёжные, масштабируемые сервисы для запуска, инференса и сопровождения моделей.
Наш стек:
Kotlin, PostgreSQL, Apache Kafka, S3, HDFS, GitLab CI/CD, Managed Kubernetes
Вы будете:
Развивать ML Job Scheduler — систему управления задачами машинного обучения и вычислительными ресурсами в Kubernetes.
Разрабатывать Model as a Service — сервис для инференса моделей, с фокусом на эффективность использования CPU/GPU.
Работать над DataFlow — системой доставки и подготовки данных для обучения моделей.
Проектировать и развивать новые сервисы и компоненты ML-платформы.
Плотно взаимодействовать с дата-сайентистами и аналитиками для уточнения требований и совместного проектирования решений.
Примеры задач:
Настроить шедулер так, чтобы эффективно распределять задачи по GPU-ноду, минимизируя idle-time.
Оптимизировать latency и throughput сервиса инференса.
Обеспечить стабильную доставку большого объёма обучающих данных из S3/HDFS в вычислительный кластер.
Перепроектировать архитектуру одного из сервисов, чтобы упростить масштабирование и добавление фич.
Нам важно:
Опыт коммерческой разработки на Java или Kotlin от 3 лет.
Опыт проектирования и реализации распределённых систем.
Умение декомпозировать задачи, принимать архитектурные решения и обосновывать их.
Понимание принципов масштабируемости и отказоустойчивости сервисов.
Навыки работы с CI/CD и Kubernetes.
Будет плюсом:
Опыт разработки MLOps-инфраструктуры.
Знание Kubernetes CSI, Helm.
Понимание процессов ML и Data Science.
Envista Holdings Corporation
Москва
от 380000 RUR
Москва
до 290000 RUR