Senior Data Engineer (Azure Databricks)

Описание вакансии

Ищем опытного сотрудника на позицию Senior Data Engineer для работы в DWH команде заказчика (международная фармацевтическая компания). Основной задачей будет разработка и развитие Data Lakehouse на базе Azure Databricks, включая перенос данных из существующих систем (в первую очередь MS SQL Server), построение надежных ingestion-процессов и подготовку данных для аналитики и BI. От кандидата ожидаем готовности к работе с международной data-командой, понимания архитектуры решений и знания лучших практик работы с данным в рамках используемого стека, опыта выполнения аналогичных проектов.

Технологический стек:

Azure Databricks (Apache Spark, PySpark, Spark SQL, Delta Lake)
MS SQL Server
Python, SQL
Power BI
Informatica CDGC (Cloud Data Governance & Catalog)

Обязанности:

Разработка и поддержка data pipelines для загрузки данных в Data Lake на базе Databricks
Перенос и интеграция данных из MS SQL Server в архитектуру Data Lakehouse
Проектирование и реализация ingestion pipelines для загрузки данных из различных источников: баз данных, API, файлов (CSV, Excel, JSON), FTP/SFTP
Разработка процессов загрузки данных в raw (bronze) слой Data Lake с учетом требований к надежности и воспроизводимости
Реализация трансформации данных и формирование silver и gold слоев для аналитики и BI
Оптимизация обработки данных и производительности Spark / SQL-запросов
Разрабатка и внедрение best practices работы с данными в Data Lake (структура данных, стандарты ingestion, контроль качества данных)
Обеспечение мониторинга, логгирования и обработки ошибок в data pipelines
Работа с метаданными, каталогом данных и data lineage (Informatica’s CDGC)

Обязательные требования:

Опыт работы Data Engineer от 5 лет
Отличное знание SQL и опыт работы с MS SQL Server или другими реляционными базами данных
Уверенное владение Python и опыт использования систем контроля версий (Git)
Опыт разработки ETL/ELT pipelines, включая инкрементальные загрузки и обработку ошибок
Опыт работы с форматами данных Parquet, CSV, JSON и интеграции данных из различных источников (базы данных, API, файлы, FTP)
Практический опыт работы с Apache Spark (PySpark или Spark SQL)
Опыт работы с Databricks и Delta Lake
Опыт работы с Azure или другими облачными платформами
Понимание принципов построения Data Lake / Lakehouse архитектуры
Опыт подготовки данных для BI-систем (Power BI, Qlik Sense и др.)
Уверенное знание английского языка (предполагается частая коммуникация с коллегами из международной data-команды)