Москва
Мы — федеральная розничная сеть, которая переживает период бурного роста. Открытие более 700 магазинов в год и расширение офисов создают отличные возможности для профессионального развития в команде единомышленников. У нас уже более 3000 магазинов по всей стране! Хотите стать частью нашего успеха?
Чем предстоит заниматься:
Разрабатывать и поддерживать ETL/ELT-пайплайны данных (Airflow, dbt)
Оптимизировать SQL-запросы для аналитических витрин
Работать со Spark, Trino, Impala для batch-обработки данных в Lakehouse
(Iceberg / parquets в s3)
Работать с Flink для стриминговой обработки данных, поддержания CDC
Интегрировать данные из разных источников (БД, API, Kafka, object storage)
Работать с Linux-серверами, Docker и базовой инфраструктурой
Наши ожидания от кандидата:
Опыт в аналогичной должности от 3х лет.
Опыт с классическими СУБД (PostgreSQL/Oracle/MySQL) и колоночными (ClickHouse/StarRocks) - window functions, CTE, join, агрегации, партицирование, репликация, индексы, оптимизация запросов
Опыт разработки DAG-ов в Airflow/Dagster - кастомные операторы, xcom, сенсоры, backfill, lineage
Опыт со Spark / PySpark - RDD, DataFrame, Dataset, UDF, Spark SQL, оптимизация DAG-ов, настройка ресурсов и конфигураций
Опыт с форматами Iceberg / Parquet / ORC - partitioning, bucketing, schema evolution, merge-on-read, maintenance, compaction
Опыт с Python - get/post запросы к API, pandas, интеграции с БД, jupyter, venv
Опыт с Git (ветки, MR/PR, code review)
Опыт с Linux, SSH и Docker
Опыт с облаками Yandex Cloud, AWS, GCP, Azure
Будет плюсом:
Опыт с dbt
Опыт с Kafka, NiFi, Flink (PyFlink), debezium, CDC
Умение работать с Codex, Claude Code
Опыт оптимизации тяжелых пайплайнов и расследования production-инцидентов
Мы рады Вам предложить: