DWH аналитик / Инженер данных

Описание вакансии

О компании: «SJ GLOBAL» (аутстфф - формат сотрудничества) — это более 10 лет успешной работы в сфере разработки мобильных приложений. Мы создали более 100 приложений для различных отраслей, включая общепит, логистику, производство и стартапы. Мы — победители Федерального конкурса "Опора для IT" и организаторы хакатонов. Присоединяйтесь к нам, чтобы расти и развиваться вместе с командой профессионалов!

Чем предстоит заниматься ежедневно

1. Аналитика и проектирование:

Разбор в банковской предметной области и IT-ландшафте (источники данных, мастер-системы).
Взаимодействие с заказчиками и смежными командами для сбора и формализации требований.
Проектирование архитектуры потоков данных для Apache-стека (Spark, NiFi, Airflow) и их интеграции с Kafka и BI-системами.
Создание проектной документации (AS-IS, TO-BE), ER-диаграмм, технических спецификаций, тест-кейсов и рабочих инструкций.

2. Разработка и оптимизация ETL/ELT:

Разработка ETL-пайплайнов на Apache Spark (Java-стек) для обработки миллиардов строк.
Проектирование и разработка алгоритмов загрузки и обработки данных из HDFS (Parquets) через Hive в Greenplum и ClickHouse.
Разработка витрин данных в Greenplum и ClickHouse для последующего использования в BI (Apache Superset).
Оптимизация ETL-процессов и SQL-кода для highload-среды (батчинг, ретраи, контроль SLA).
Написание и анализ сложного SQL кода, составляющего ETL-процессы.

3. Контроль качества данных и процессов:

Анализ качества данных, соответствия форматно-логическому контролю и бизнес-ограничениям.
Участие в построении мониторинга качества данных, валидаций и алертов.
Участие в тестировании (составление тест-сценариев, анализ корректности расчетных данных) и приемочных испытаниях релизов.
Отслеживание метрик ETL-процессов с использованием Grafana/Prometheus.

4. Координация и регламентация:

Участие в оценке затрат, планировании работ команды и координации задач.
Регламентирование регулярных процессов и процедур группы.
Взаимодействие с BI-разработчиками и DevOps для обеспечения своевременной доставки данных.

Обязательные технические навыки

Высшее техническое образование (ИТ или смежная область).
Опыт работы в роли системного аналитика, аналитика БД или Data Engineer от 3 лет.
Сильный SQL (PostgreSQL/Greenplum): CTE, оконные функции, сложные джоины, оптимизация запросов, анализ планов выполнения.
Опыт работы в проектах по внедрению или развитию BI-решений и хранилищ данных (DWH).
Опыт работы с Apache Spark от 1 года (включая готовность осваивать Java-стек для Spark).
Опыт работы с Big Data СУБД: Greenplum, ClickHouse, а также Hadoop (HDFS, Hive).
Опыт проектирования архитектуры и потоков данных для ETL/ELT процессов.
Навыки сбора, формализации требований и создания проектной документации (AS-IS, TO-BE, технические спецификации).
Умение анализировать и оптимизировать ETL-процессы, код и данные (качество данных, дедупликация, валидация).

Желательные (Nice to Have / Будет плюсом):

Опыт в проектах миграции ETL-систем на Apache-стек (Spark, NiFi, Airflow).
Опыт построения сквозной аналитики и атрибуции (UTM, ClientID).
Опыт интеграций (REST API, webhooks) с CRM (Bitrix24), 1С и другими системами.
Знание Apache Airflow для оркестрации.
Опыт работы с BI-инструментами: Apache Superset, Qlik Sense, Power BI (публикация, моделирование, права).
Навыки работы с Grafana, Prometheus, Kibana для мониторинга ETL-процессов.
Базовые навыки программирования на Python.
Понимание принципов контейнеризации (Docker, Kubernetes, OpenShift).
Опыт работы с инструментами разработки: Bitbucket, Jira, Confluence.