Data Engineer (S3, Spark)

Показать контакты

Описание вакансии

Обязанности:

Разрабатывать и сопровождать ETL процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных.
Настраивать интеграции источников данных: подключение по JDBC к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON.
Разрабатывать и поддерживать оркестрацию процессов в Airflow (DAG’и), используя Python в связке со Spark.
Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки.
Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON).
Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных СУБД вроде Greenplum.

Требования:

Опыт работы в области ETL и Data разработки.
Уверенная работа с S3, опыт работы с MinIO.
Опыт работы с MinIO.
Уверенная работа со Spark.
Понимание табличного формата Iceberg.
Опыт интеграций с Kafka, умение работать с форматом JSON.
Навыки разработки DAG’ов в Airflow.
Владение Python на уровне для написания ETL процессов и служебного кода.
Опыт работы с JDBC подключениями к БД и источникам данных.
Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse).

Условия:

Оформление по ТК РФ в ИТ-аккредитованную компанию
Годовой бонус до 15% от годового дохода
Выстроенная система работы с персоналом: индивидуальный план развития, выделенный бюджет на обучение у сторонних подрядчиков, регулярные 1:1 с руководителем
ДМС, включая стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой;
Программа корпоративных скидок Best benefits
Дополнительный оплачиваемый отпуск