Разрабатывать и сопровождать ETL процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных.
Настраивать интеграции источников данных: подключение по JDBC к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON.
Разрабатывать и поддерживать оркестрацию процессов в Airflow (DAG’и), используя Python в связке со Spark.
Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки.
Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON).
Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных СУБД вроде Greenplum.
Опыт работы в области ETL и Data разработки.
Уверенная работа с S3, опыт работы с MinIO.
Опыт работы с MinIO.
Уверенная работа со Spark.
Понимание табличного формата Iceberg.
Опыт интеграций с Kafka, умение работать с форматом JSON.
Навыки разработки DAG’ов в Airflow.
Владение Python на уровне для написания ETL процессов и служебного кода.
Опыт работы с JDBC подключениями к БД и источникам данных.
Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse).