Мы ищем опытного Дата-инженера с архитектурным мышлением, который готов взять на себя ответственность за развитие существующих решений и участвовать в проектировании новой, современной архитектуры.
Ключевые задачи:
* Проектирование, реализация и оптимизация DWH/Data Lakehouse архитектуры, включая слои данных (STG, DDS, Marts, Bronze/Silver/Gold).
* Разработка и поддержка сложных ETL/ELT пайплайнов с использованием Apache Airflow и Python/SQL.
* Администрирование и глубокая оптимизация производительности MPP-хранилища Greenplum (анализ планов запросов, управление ресурсами, настройка сжатия и партиционирования).
* Проектирование и внедрение стратегии тиеринга данных (перенос "холодных" данных в S3-хранилище с доступом через PXF).
* Участие в пилотных проектах по внедрению Apache Kafka, Data Catalog и MDM.
* Взаимодействие с бизнес-заказчиками для сбора требований и проектирования витрин данных.
Требования к опыту и навыкам:
Обязательный опыт:
* 5+ лет в инженерии данных, из них не менее 2-х лет на позиции Senior Data Engineer или аналогичной.
* Подтвержденный опыт проектирования и внедрения DWH с нуля или значительного рефакторинга существующего. Вы должны на практике построить полноценную слоистую архитектуру (Staging, DDS/Core, Marts).
* Экспертное владение SQL: знание оконных функций, CTE, опыт оптимизации сложных запросов на сотни строк.
* Глубокий опыт работы с MPP-хранилищами: Greenplum (предпочтительно), Teradata, Vertica или аналоги. Понимание принципов сегментации, дистрибуции данных и параллельного выполнения запросов.
* Промышленный опыт с Apache Airflow: вы не просто запускали DAG'и, а писали сложные пайплайны, создавали кастомные операторы и понимаете его внутреннее устройство.
* Уверенное владение Python как основным инструментом для разработки ETL/ELT и автоматизации.
Необходимые знания:
* Фундаментальные знания архитектурных подходов: методологии Кимбалла и Инмона, плюсы и минусы Data Lake и Data Lakehouse.
* Глубокое понимание техник мерно-ориентированного моделирования (схема "звезда", "снежинка") и управления историчностью (SCD).
* Знание принципов работы и форматов хранения данных в Big Data экосистеме (Parquet, Avro).
* Опыт работы с колоночными СУБД для интерактивной аналитики (ClickHouse).
Будет большим плюсом:
* Опыт работы с технологиями потоковой обработки данных (Apache Kafka, Spark Streaming, Flink).
* Практический опыт с Apache Spark для batch-обработки.
* Понимание принципов IaC (Terraform, Ansible) и опыт работы с контейнеризацией (Docker, Kubernetes).
* Опыт внедрения или работы с инструментами Data Governance (Data Catalog, MDM).
* Опыт использования dbt для моделирования данных.
Личные качества:
* Прагматизм и фокус на бизнес-ценности.
* Системное мышление и умение находить корень проблемы.
* Высокий уровень самостоятельности и ответственности за результат.
Мы предлагаем
• Чётко сформулированный проект с конкретными результатами.
• Работа с высоконагруженной инфраструктурой и современным стеком технологий.
• Оплата по итогам собеседования.
Банк ЦентрКредит
Алматы
до 1000000 KZT