Мы в поиске Инженера по работе с большими данными в команду дата-инжиниринга, который будет участвовать в ключевых проектах Lamoda, обеспечивая стабильную и масштабируемую инфраструктуру для обработки и анализа данных.
В рамках этой роли вы будете решать задачи продуктового направления навигации, которое:
Развивает поиск, каталог, саджесты, ранжирование товаров и AI-инструменты навигации.
Улучшает качество поиска и навигации через аналитику, работу с поисковыми запросами и ML-модели (DL, NLP, CV).
Обеспечивает эффективную интеграцию алгоритмов с продуктовым дизайном.
Реализует data-driven инициативы, помогая пользователю быстрее находить нужные товары и информацию.
Чем предстоит заниматься:
Разрабатывать и развивать платформу данных электронной коммерции нового поколения;
Проектировать и реализовывать ETL-пайплайны в Airflow для Spark, Streaming, Hive, Trino;
Оптимизировать существующие пайплайны и Spark-джобы: следить за нагрузкой на кластер, ресурсами и производительностью;
Взаимодействовать с аналитиками и ML-инженерами, оптимизировать SQL-запросы, развивать культуру осознанной работы с данными;
Развивать Action Storage — слой событий кликстрима, используемый в аналитике и моделях;
Анализировать и внедрять новые инструменты для эффективной работы с данными.
Мы ожидаем:
Опыт работы со стеком Hadoop (YARN, HDFS, Hive);
Уверенные навыки в Spark;
Опыт разработки на Python;
Отличное понимание SQL и принципов работы с СУБД;
Инженерный подход, интерес к системам данных и внимание к деталям.
Будет плюсом:
Опыт с Docker;
Знакомство с Kafka, Iceberg.