Мы ищем Инженера данных (Senior) в команду DWH, где основная задача - поддержка инфраструктуры Единого аналитического хранилища Рекламной платформы.
Стек: Trino, ClickHouse, Airflow, PySpark, DBT, Open Metadata Server, Kafka, Kafka Connect, Flink, Java, Python, HDFS, S3, Iceberg, K8s.
Вам предстоит:
- интегрировать данные из различных источников (Kafka, S3, Greenplum, Clickhouse БД, API) в DWH;
- разрабатывать DQ-проверки (валидность, полнота, консистентность) и встраивать их в пайплайны;
- обеспечивать надёжность пайплайнов обработки данных;
- оптимизировать производительность обработки данных;
- дорабатывать оупенсорс-инструменты обработки данных;
- исследовать новые оупенсорс-инструменты
- создавать гайды, собирать best practices для конечных пользователей.
Формат работы - гибридный или удаленный формат работы по договоренности с руководителем.
Вы нам подходите, если: - владеете опытом работы от 6 лет в DE;
- уверенно владеете стеком Trino, Airflow, PySpark, DBT, Java, Python, HDFS, S3.
- владеете опытом работы с мониторингом (Prometheus + Grafana).