Ищем опытного сотрудника на позицию Senior Data Engineer для работы в DWH команде заказчика (международная фармацевтическая компания). Основной задачей будет разработка и развитие Data Lakehouse на базе Azure Databricks, включая перенос данных из существующих систем (в первую очередь MS SQL Server), построение надежных ingestion-процессов и подготовку данных для аналитики и BI. От кандидата ожидаем готовности к работе с международной data-командой, понимания архитектуры решений и знания лучших практик работы с данным в рамках используемого стека, опыта выполнения аналогичных проектов.
Технологический стек:
- Azure Databricks (Apache Spark, PySpark, Spark SQL, Delta Lake)
- MS SQL Server
- Python, SQL
- Power BI
- Informatica CDGC (Cloud Data Governance & Catalog)
Обязанности:
- Разработка и поддержка data pipelines для загрузки данных в Data Lake на базе Databricks
- Перенос и интеграция данных из MS SQL Server в архитектуру Data Lakehouse
- Проектирование и реализация ingestion pipelines для загрузки данных из различных источников: баз данных, API, файлов (CSV, Excel, JSON), FTP/SFTP
- Разработка процессов загрузки данных в raw (bronze) слой Data Lake с учетом требований к надежности и воспроизводимости
- Реализация трансформации данных и формирование silver и gold слоев для аналитики и BI
- Оптимизация обработки данных и производительности Spark / SQL-запросов
- Разрабатка и внедрение best practices работы с данными в Data Lake (структура данных, стандарты ingestion, контроль качества данных)
- Обеспечение мониторинга, логгирования и обработки ошибок в data pipelines
- Работа с метаданными, каталогом данных и data lineage (Informatica’s CDGC)
Обязательные требования: - Опыт работы Data Engineer от 5 лет
- Отличное знание SQL и опыт работы с MS SQL Server или другими реляционными базами данных
- Уверенное владение Python и опыт использования систем контроля версий (Git)
- Опыт разработки ETL/ELT pipelines, включая инкрементальные загрузки и обработку ошибок
- Опыт работы с форматами данных Parquet, CSV, JSON и интеграции данных из различных источников (базы данных, API, файлы, FTP)
- Практический опыт работы с Apache Spark (PySpark или Spark SQL)
- Опыт работы с Databricks и Delta Lake
- Опыт работы с Azure или другими облачными платформами
- Понимание принципов построения Data Lake / Lakehouse архитектуры
- Опыт подготовки данных для BI-систем (Power BI, Qlik Sense и др.)
- Уверенное знание английского языка (предполагается частая коммуникация с коллегами из международной data-команды)
Плюсом будет:
- Опыт работы на профильной позиции в международной фармацевтической / FMCG компании
- Опыт работы с data catalog / data governance инструментами
Условия: - Удаленная работа
- График работы: 5/2 с 09:00 до 18:00 или с 10:00 до 19:00
- Трудоустройство по ТК РФ
- Аккредитованная IT-компания