Проект по развитию аналитической платформы данных для крупного банка. Работа ведётся с промышленными хранилищами данных на базе распределённых (MPP) СУБД, интеграцией данных из различных источников и эксплуатацией ETL / ELT-процессов в промышленной среде.
Твои задачи:
- Разрабатывать SQL-процедур и логики обработки данных на уровне хранилища ArenadataDB (Greenplum) с учётом особенностей MPP СУБД
- Реализовывать и сопровождать ETL / ELT-пайплайны с использованием Apache Airflow
- Реализовывать и сопровождать интеграции с источниками данных (реляционные и MPP СУБД, файловые источники, сервисные интерфейсы)
- Участвовать в проектировании технических решений и выборе подходов реализации
- Анализировать и устранять инцидентов, связанных с загрузкой и качеством данных
- Проводить code review
Мы ждем от тебя:
- Уверенное владение Python для реализации интеграций, трансформаций и служебной логики ETL / ELT-процессов
- Опыт построения и сопровождения интеграций с источниками данных (СУБД, файлы, сервисы)
- Опыт работы с Apache Airflow (разработка и поддержка DAG’ов)
- Понимание принципов устройства и функционирования хранилищ данных (DWH)
- Понимание принципов устройства и функционирования распределённых файловых систем и объектных хранилищ (HDFS, S3).
Будет плюсом:
- Опыт работы с Hadoop-экосистемой.
- Опыт работы с финансовыми или банковскими данными.
Что мы обеспечим:
- Возможность работы в дружной молодой команде профессионалов
- Сессия профессионального развития, по итогу которой составляется план индивидуального развития для каждого сотрудника
- Тренинги за счет компании, внутренние семинары, внутренние митапы, мы очень любим учиться новому
- Корпоративная культура со своими ценностями и традициями, в которой каждый чувствует себя частью команды