MLOps-инженер в Яндекс Еду

Москва, 1-й Красногвардейский проезд, 22с2

Метро: Деловой центр

Описание вакансии

Мы создаём и улучшаем инструменты для анализа больших объёмов данных и «умного» прогнозирования. Регулярно общаемся с пользователями наших сервисов, чтобы оптимизировать работу с данными и обучение моделей.

Наша задача — выстроить эффективные процессы внутри компании. Для этого мы автоматизируем работу с данными и «умными» алгоритмами, а также настраиваем работу сервисов и процессов в экосистеме Яндекса.

Вы будете участвовать в создании и улучшении инструментов для работы с данными. Ваша задача — помогать нам развивать и оптимизировать аналитическую и ML-инфраструктуру.

Какие задачи вас ждут:

Поддержка и развитие средства диагностики рекомендаций

Рекомендательная система опирается на большое количество различных сигналов о сессии пользователя, кликах, покупках, просмотрах, информации о блюде, о товарах ритейла и т. д. Для того чтобы ответить на вопрос, почему система дала такую рекомендацию, мы используем внутренний инструмент, который визуально показывает все шаги рекомендательной системы с различной отладочной информацией. Мы развиваем и поддерживаем этот инструмент для своих задач. Сейчас стоит острая проблема быстрого получения всех атрибутов рекомендации, которую мы дали пользователям Яндекса, то есть узкому кругу пользователей. Нужно придумать механизм доставки и хранения данных, чтобы реализовать быстрый и удобный доступ к данным отладки.

Развитие инфраструктуры для реактивной поставки сигналов

Рекомендательные системы полагаются на историю пользовательских действий внутри приложения. Возможность доставлять события с задержкой до нескольких секунд позволит учитывать предпочтения пользователя в рамках сессии и повысить качество рекомендаций. Проект подразумевает разработку стриминга событий на базе Flink, хранение и раздачу профилей пользователей из key-value-хранилищ Яндекса.

Переезд поискового ранжирования на DJ-движок

Код поискового ранжирования был написан N лет назад — существует большая проблема с поддержкой этого кода и с улучшением метрик ранжирования. В других наших механизмах ранжирования, таких как показ ресторанов на главной странице Яндекса и ритейл-товаров на различных поверхностях, уже давно используется универсальный внутренний фреймворк ранжирования со своим пайплайном и механикой сбора данных. Наша задача — перевезти логику ранжирования на этот фреймворк, не уронить при этом метрики качества и наладить все механизмы сбора и обработки данных для обучения и применения в онлайне.

Мы ждем, что вы:

Понимаете ML и концепции MLOps на базовом уровне
Разрабатывали бэкенд-сервисы на Python, C++, Java или Go
Знаете или готовы освоить C++
Обрабатывали большие объёмы данных с помощью Hadoop, Spark или Hive

Будет плюсом, если вы:

Работали с ML-сервисами в продакшене
Писали стриминговые приложения на Spark Structured Streaming, Flink или Kafka Streams
Имеете опыт работы в инфраструктурной команде