Участие в проектировании архитектуры и выборе платформы данных (на базе MPP или Lakehouse) и инструментов для построения отдельных частей платформы данных (ML платформа, качество данных, ETL движок)
Реализация физического уровня архитектуры данных в DWH для всех слоев
Разработка и сопровождение data-пайплайнов в ETL инструменте (Airflow или схожие) для передачи данных из различных внутренних и внешних систем
Что важно:
Уверенное знание SQL, опыт написания сложных запросов и их оптимизации (CTE, оконные функции, профилирование и оптимизация запросов под большие таблицы)
Опыт работы с любой из современных СУБД (Greenplum, Clickhouse, PostgreSQL) от 1 года или MPP-движки (Trino, Impala, Starrocks), понимание концепций проектирования DWH
Знание Python на уровне решения задач по автоматизации и ETL, ad-hoc анализу и написанию сервисов
Уверенные навыки работы в Linux среде
Понимание принципов контейнеризации, опыт работы с Docker
Опыт работы в Apache Airflow (создание DAG, отладка, мониторинг) или схожем решении
Опыт работы с любым S3 (AWS, Minio, Ceph, Ozone)
Плюсом будет и знание принципов работы с требованиями и дата-архитектурой:
Основные паттерны дата-архитектур
Насмотренность в части современных ИТ-решений в области домена данных
Уровни требований: бизнес-требования, требования пользовательского уровня, требования уровня функций.
Понятие заинтересованного лица (stakeholder).Виды заинтересованных лиц.