Мы в поиске Инженера по работе с большими данными в команду дата-инжиниринга, который будет участвовать в ключевых проектах Lamoda, обеспечивая стабильную и масштабируемую инфраструктуру для обработки и анализа данных.
В рамках этой роли вы будете решать задачи продуктового направления прайсинга, которое:
- Отвечает за ценообразование: регулярные цены, акции, персональные предложения.
- Разрабатывает ML-модели и алгоритмы конкурентного матчинга с применением DL, NLP, CV и классических ML-методов.
- Интегрирует модели с управлением ассортиментом, остатками и контентом.
- Реализует data-driven проекты в плотном взаимодействии с бизнесом.
Чем предстоит заниматься:
- Разрабатывать и развивать платформу данных электронной коммерции нового поколения;
- Проектировать и реализовывать ETL-пайплайны в Airflow для Spark, Streaming, Hive, Trino;
- Оптимизировать существующие пайплайны и Spark-джобы: следить за нагрузкой на кластер, ресурсами и производительностью;
- Обеспечивать качество данных: развивать платформу Data Quality (чеки, мониторинг, алерты);
- Взаимодействовать с аналитиками и ML-инженерами, оптимизировать SQL-запросы, развивать культуру осознанной работы с данными;
- Развивать Action Storage — слой событий кликстрима, используемый в аналитике и моделях;
- Анализировать и внедрять новые инструменты для эффективной работы с данными.
Мы ожидаем:
- Опыт работы со стеком Hadoop (YARN, HDFS, HBase, Hive);
- Уверенные навыки в Spark;
- Опыт разработки на Python;
- Отличное понимание SQL и принципов работы с СУБД;
- Инженерный подход, интерес к системам данных и внимание к деталям.
Будет плюсом:
- Опыт с Docker;
- Знакомство с Kafka.