Наша команда занимается созданием и развитием аналитической дата-платформы, которая включает в себя масштабное хранилище данных и набор сервисов для предоставления качественных данных различным внутренним клиентам: командам машинного обучения, продуктовыми подразделениями, аналитикам. Мы строим системы сбора, обработки и отдачи данных с упором на надежность, масштабируемость и удобство использования.
Технологии с которыми работаем:
Greenplum, DBT, Python, Airflow, ClickHouse, Docker, Bash, PostgreSQL.
Чем предстоит заниматься:
- настройкой и оптимизацией пайплайнов доставки данных до конечных витрин (data marts), обеспечивающих доступ к аналитическим данным;
- настройкой и поддержкой ETL/ELT процессов, включая работу с инструментом dbt для создания и поддержки моделей данных;
- моделированием детального слоя хранилища данных, созданием и доработкой архитектуры данных с учетом бизнес-требований;
- разработкой и сопровождением DAG-ов в Apache Airflow для автоматизации процессов обработки данных;
- мониторингом и улучшением контроля качества работы платформы, внедрением систем оповещений и диагностики;
- работой с качеством данных, построением аналитических витрин на базе GreenPlum;
- разработкой ETL-процессов и интеграцией с внешними источниками данных;
- развитием и поддержкой Clickstream аналитики.
Пожелания к твоему опыту:
- опыт работы с GreenPlum;
- опыт работы с крупными хранилищами данных и аналитическими платформами;
- умение создавать и поддерживать пайплайны данных и модели dbt;
- понимание принципов работы СУБД и транзакционной машины, хорошие знания СУБД GreenPlum/PostgreSQL;
- опыт разработки ETL;
- понимание архитектурных принципов DataVault;
- уровень уверенного пользователя GNU/Linux.
Будет здорово, если ты:
- имеешь опыт работы с NiFi, Airflow;
- имеешь опыт разработки на Python.