Мы запускаем сервис-агрегатор, который будет формировать единый портрет пользователя WB.
Зачем это нужно? Сейчас данные о клиентах распределены по разным доменам и системам, из-за чего получение всей информации о пользователе занимает время и требует агрегации.
Мы хотим создать единый источник, который будет собирать, стандартизировать и предоставлять эти данные в удобном виде.
Вам предстоит:
- Проектировать и реализовывать ETL-пайплайны на основе требований;
- интегрировать данные из различных источников (Kafka, S3, Greenplum, Clickhouse БД, API) в DWH;
- реализовывать преобразования данных с учётом бизнес-логики и требований к качеству;
- обеспечивать надёжность пайплайнов;
- разрабатывать DQ-проверки (валидность, полнота, консистентность) и встраивать их в пайплайны;
- оптимизировать производительность обработки данных.
Вы нам подходите, если: - Уверенно владеете SQL (сложные запросы, оконные функции, оптимизация);
- имеете практический опыт с Python для обработки данных;
- имеете опыт автоматизации пайплайнов в Airflow;
- понимаете архитектуру DWH / Data Lake;
- владеете опытом построения и поддержки ETL-пайплайнов;
- имеете опыт работы с БД ClickHouse и Kafka.