Описание проекта:
Стек проекта: Python, Trino, dbt, Airflow, Spark, Hadoop, Hive, Postgres, Greenplum, Kubernetes, Gitlab.RL
Требования к кандидату:
• знаешь SQL на уровне оптимизации сложных запросов;
• знаешь принципы работы классических и MPP-СУБД;
• опыт разработки на Python и/или Java, Scala;
• опыт оркестрации ETL-пайплайнов с помощью Airflow;
• опыт работы с dbt;
• опыт работы с продуктами экосистемы Hadoop (HDFS, YARN, HIVE, Sqoop).
• опыт Apache Spark (Spark DataFrames, Spark SQL);
• знаком с банковской предметной областью;
• знакомство с банковской предметной областью;
• опыт работы с Kafka, Trino;
• опыт работы с контейнерными технологиями и оркестрацией: kubernetes, helm;
• знания и опыт CI/CD-практик и инструментов;
Задачи на проекте:
• Мигрировать процессы для отчетности и аналитики и настраивать их регламентную
загрузку;
• работать с общебанковской data-платформой (data lake, dwh);
• разрабатывать end-to-end пайплайны по сбору и обработке данных: выбирать
оптимальный формат, структуру хранения и архитектуру интеграционных решений;
• анализировать и оптимизировать производительность пайплайнов, инструментов и
дата-сервисов;
• развивать архитектуру данных и внедрять новые технологические решения и сервисы;
• управлять обновлениями, настройками, устранять выявленные уязвимости,
восстанавливать сервисы после сбоев, обрабатывать инциденты.