Data Scientist (Pricing)

Москва, Крылатская улица, 15

Показать контакты

Описание вакансии

Чем предстоит заниматься:

Участвовать в развитии и оптимизации процессов ценообразования в Lamoda;
Улучшать ML-продукт регулярного ценообразования;
Разрабатывать и внедрять модели оптимизации цен для офлайн-ритейла с учетом спроса, сезонности, маржинальности и особенностей физических магазинов;
Разрабатывать промо-модели для анализа и создания эффективных акций;
Создавать аналитические и ML-инструменты для принятия коммерческих решений в офлайн-канале;
Реализовывать новые продукты, например, персональное ценообразование;
Развивать решения на стыке ценообразования, управления поставками, ассортиментом и остатками магазинов;
Проводить эксперименты и оценивать бизнес-эффект внедряемых решений;
Инициировать и внедрять data-driven проекты для повышения эффективности бизнеса.

Мы ожидаем:

Опыт в области анализа данных и машинного обучения от 3 лет;
Опыт работы с SQL, Hadoop, Hive, Spark;
Владение Python, Linux, методами работы с большими данными;
Опыт работы как минимум с 2 ML-библиотеками: Scikit-learn, CatBoost/XGBoost, PyTorch, Spark ML;
Знания теории вероятностей и математической статистики;
Знания в области машинного обучения, прогнозного моделирования и методов статистического анализа;
Умение формулировать и проверять бизнес-гипотезы на основе данных;
Будет плюсом опыт решения задач в области ценообразования, прогнозирования спроса, управления ассортиментом, запасами или цепочками поставок;
Высшее образование в области прикладной математики, информационных технологий, информатики и т.п.;
Английский язык на уровне технического чтения.

Как мы работаем:

Пишем на Python 3.10+ и PySpark 3.3;
Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyterHub и есть доступ к Hadoop-кластеру, а также ресурсы в облаке включая GPU;
Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов;
Используем Airflow для управления ML-пайплайнами и запуском их по расписанию;
В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач;
Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов;
В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты.

Стэк технологий: Big Data (Hadoop, PySpark, Hive), Python, CatBoost, Airflow, Docker, SQL, PyTorch.

Почему у нас классно:

Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации;
Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах;
Зрелый сетап разработки ML-решений полного цикла: современный стек, высокий уровень культуры разработки, десятки ML-моделей в продакшене и поддержка команды MLOps;
Проекты не остаются на уровне исследований — большинство инициатив доходят до А/В-тестов и промышленного внедрения;
Возможность формировать новое направление ML-продуктов для офлайн-коммерции и напрямую влиять на развитие розничного бизнеса компании;
Можно и нужно предлагать собственные идеи и влиять на развитие продуктов и ML-решений компании;
Персональные карьерные маршруты и возможности профессионального роста внутри DS-сообщества.