Санкт-Петербург, Дегтярный переулок, 11Б
Метро: Площадь ВосстанияМы – команда «Газпромнефть – Цифровые решения», часть ИТ-функции «Газпром нефти». Команда, которая научила нейросети находить нефть, запустила первую в мире цифровую систему управления арктической логистикой и первой в мире заправила самолет по блокчейн. Мы переводим в «цифру» каждый этап работы современного нефтяника: от геологической разведки и бурения скважин до процесса переработки нефти и момента, когда она в виде топлива попадает в баки автомобиля, самолета или, например, становится битумом для строительства дорог. Активы «Газпром нефти» – это сотни петабайт данных, которые генерируют объекты компании в России и за рубежом. Нас вдохновляет идея развития цифрового будущего нефтегазовой отрасли и промышленности в целом.
Проект разработки корпоративного хранилища данных реализуется на стеке: MPP Greenplum, ETL платформы Informatica PowerCenter, Airflow, Apache NiFi и других инструментах. Работа в команде, выполняющей внедрение стратегии, процессов и инструментария управления корпоративными данными (Data Governance). Нам нужен разработчик.
Цель должности: Обеспечение эффективного процесса сбора, преобразования, загрузки и хранения больших объемов корпоративных данных в масштабируемое и надежное хранилище на платформе Greenplum. Проектирование и реализация robust и производительных ETL/ELT-процессов с использованием стека технологий (NiFi, Airflow, Informatica) в соответствии с методологией Data Vault 2.0 для обеспечения бизнеса и аналитиков актуальными, целостными и качественными данными, пригодными для глубокого анализа и построения отчетности.
Обязанности:Разработка и поддержка процессов загрузки и трансформации данных в Greenplum.
Проектирование и реализация моделей данных в парадигме Data Vault 2.0.
Настройка и сопровождение интеграционных потоков в NiFi, оркестрация процессов в Airflow.
Разработка ETL-процессов в Informatica/NiFi/Spark.
Оптимизация SQL-запросов и ETL-процессов для повышения производительности.
Участие в проработке архитектурных решений совместно с архитекторами.
Обеспечение качества данных и контроль целостности информации.
Подготовка и поддержка технической документации.
Функциональные компетенции:
Проектирование Хранилищ Данных:
Практический опыт проектирования и реализации моделей данных в методологии Data Vault 2.0.
Понимание и различие концепций Hub, Link, Satellite, их атрибутов и ключей.
Знание принципов загрузки данных в модель Data Vault (например, использование хэшей для проверки изменений).
Понимание архитектуры DWH (Staging, Core, Data Marts).
Глубокое понимание SQL (сложные JOIN, оконные функции, оптимизация запросов)
Опыт работы с Greenplum или другими MPP (Massively Parallel Processing) СУБД: понимание архитектуры, распределения данных (DISTRIBUTED BY), оптимизация производительности через анализ планов запросов (EXPLAIN ANALYZE)
Знание принципов работы колоночных хранилищ (для Greenplum).
Опыт разработки и поддержки процессов интеграции данных с использованием Informatica PowerCenter: создание mappings, workflows, sessions.
Опыт работы с Apache NiFi для построения потоков данных: создание процессоров, управление очередями, мониторинг производительности.
Понимание принципов работы Apache Airflow для оркестрации ETL-процессов: написание DAGs, использование операторов (включая custom operators для NiFi или Informatica), настройка расписаний и обработка ошибок.
Опыт работы с большими объёмами данных и распределёнными системами.
уверенное владение Python для написания скриптов, создания custom-операторов в Airflow и автоматизации задач.
Знание Shell/Bash для администрирования и запуска задач на серверах.
Навыки выявления и устранения "узких мест" (bottlenecks) в ETL-пайплайнах и запросах к БД.
Понимание CI/CD для ETL/ELT (git, автоматизация развертывания).
Мы предлагаем:
В «Газпром нефть» ты можешь:
STARTRIBE LTD
Санкт-Петербург
Не указана
Центральный банк Российской Федерации (Банк России)
Санкт-Петербург
Не указана
СПб ГКУ Санкт-Петербургский информационно-аналитический центр
Санкт-Петербург
Не указана