Реализация механизмов инкрементальной загрузки данных (CDC, по временным меткам.
Написание сложных, оптимизированных T-SQL (MS SQL Server) запросов для эффективного извлечения и предварительной трансформации данных.
Создание и поддержка оптимизированных аналитических витрин в ClickHouse, обеспечивающих высокую скорость работы отчетов в DataLens/Redash.
Настройка и использование мониторинга и алертинга в Apache Airflow (Slack, Email) для оперативного реагирования на сбои DAG/task.
Мониторинг производительности критичных SQL-запросов (как в ETL, так и из BI) в MS SQL и ClickHouse.
Внедрение базовых проверок данных (DQ) в ETL-пайплайны (наличие ключевых полей, проверка объемов).
Требования:
Глубокое понимание и практический опыт написания сложных, оптимизированных запросов в MS SQL Server (T-SQL) (джойны, CTE, оконные функции, временные таблицы, индексы - использование и базовое понимание для оптимизации).
Практический опыт работы с ClickHouse: понимание специфики колоночного хранилища, оптимизация запросов, создание витрин и материализованных представлений, эффективная вставка данных.
Уверенное владение Python для написания ETL-скриптов.
Опыт работы с ключевыми библиотеками: pandas (для сложных трансформаций), sqlalchemy, psycopg2`/`pyodbc (MS SQL), clickhouse-driver`/`clickhouse-connect, requests (API).
Английский язык: Уровень, достаточный для чтения технической документации.
Будет плюсом * Понимание специфики данных и процессов в индустрии Travel Tech (бронирования, рейсы, отели, цены, сезонность). * знание OLAP