Разработка ETL процессов для загрузки и интеграции данных в рамках Аналитической платформы (АП).
Разработка кастомных сервисов для контроля качества данных, визуализации и других подсистем АП.
Разработка коннекторов к источникам данных (RDBMS, NoSQL), интеграций между подсистемами АП
Требования:
Опыт разработки ETL pipelines (пакетные и потоковые) и интеграций для корпоративных хранилищ данных
Spark (must have) - опыт написания джобов, понимание принципов оптимизации, настроек
Nifi (must have)
Kafka - базовый опыт использования, работа с топиками
Airflow – базовый опыт
Опыт разработки от 3 лет для написания кастомных интеграций (желательно Python и опыт с SQL Alchemy, можно scala, java)
Хорошие знания SQL (Spark sql, соединения, оконные функции, оптимизация запросов)
Будет плюсом: опыт работы с MPP базами, опыт с Trino