Мы в поиске Старшего Инженера по работе с большими данными в направление дата инжиниринга, который поможет нам развивать платформу данных следующего поколения и обеспечивать масштабируемую аналитику для e-commerce.
Наш стек: Spark 3.5, Spark Structured Streaming (Parquet / Iceberg), Airflow, Trino, Hive, Kafka, Docker, Kubernetes, Grafana, Prometheus, S3 (Yandex Cloud).
Чем предстоит заниматься:
Разрабатывать и развивать платформу данных Lamoda для e-commerce нового поколения;
Проектировать и разрабатывать инструменты для создания ETL пайплайнов на Airflow для Spark, Hive, Trino;
Работать со стриминговыми процессами (Spark Streaming, Kafka);
Оптимизировать существующие пайплайны и джобы на Spark - мониторить с помощью Graphana и Prometheus нагрузку на кластер и оптимальность затрачиваемых джобами ресурсов и если необходимо оптимизировать;
Взаимодействовать с продуктовыми аналитиками, помогать оптимизировать сложные SQL запросы, формировать культуру работы с данными;
Анализировать и внедрять инструменты инжиниринга данных.
Мы ожидаем:
Опыт работы со Spark, включая Structured Streaming;
Уверенное владение Python и Scala/Java;
Опыт работы с S3-подобными хранилищами (например, Yandex Cloud);
Опыт работы с Docker и Kubernetes;
Опыт написания юнит/интеграционных тестов;
Знание SQL и опыт оптимизации запросов;
Опыт работы с Kafka.
Как плюс:
Опыт работы со стеком Hadoop (YARN, HDFS, Hive);
Опыт использования Apache Iceberg;
Опыт написания CI/CD пайплайнов (GitLab CI);
Опыт работы с MPP СУБД (ClickHouse);
Опыт внедрения каталогов данных и data governance (например, OpenMetadata).
Москва
Не указана
Москва
Не указана