Чем предстоит заниматься
• Миграция интеграций корпоративного хранилища данных между платформами Hadoop от разных поставщиков
• Рефакторинг интеграций в экосистеме Hadoop, в частности переход от Hive к Spark SQL
• Оптимизация ETL процессов в среде Hadoop
Что для этого нужно
• Высшее техническое образование
• Опыт работы в IT от 3х лет
• Опыт проектирования и разработки хранилищ данных и ETL-процессов (опыт использования Apache AirFlow будет преимуществом)
• Глубокое понимание архитектуры Hadoop (HDFS, MapReduce), умение конфигурировать настройки параметров сессий.
• Опыт использования технологий Apache Spark, Apache Iceberg, Apache Ozone
• Уверенное владение языком Python (библиотеки Pandas, NumPy, PySpark API)
• Опыт работы с Trino или Amazon S3, как преимущество