О компании: «SJ GLOBAL» (аутстфф - формат сотрудничества) — это более 10 лет успешной работы в сфере разработки мобильных приложений. Мы создали более 100 приложений для различных отраслей, включая общепит, логистику, производство и стартапы. Мы — победители Федерального конкурса "Опора для IT" и организаторы хакатонов. Присоединяйтесь к нам, чтобы расти и развиваться вместе с командой профессионалов!
Чем предстоит заниматься ежедневно
1. Аналитика и проектирование:
- Разбор в банковской предметной области и IT-ландшафте (источники данных, мастер-системы).
- Взаимодействие с заказчиками и смежными командами для сбора и формализации требований.
- Проектирование архитектуры потоков данных для Apache-стека (Spark, NiFi, Airflow) и их интеграции с Kafka и BI-системами.
- Создание проектной документации (AS-IS, TO-BE), ER-диаграмм, технических спецификаций, тест-кейсов и рабочих инструкций.
2. Разработка и оптимизация ETL/ELT:
- Разработка ETL-пайплайнов на Apache Spark (Java-стек) для обработки миллиардов строк.
- Проектирование и разработка алгоритмов загрузки и обработки данных из HDFS (Parquets) через Hive в Greenplum и ClickHouse.
- Разработка витрин данных в Greenplum и ClickHouse для последующего использования в BI (Apache Superset).
- Оптимизация ETL-процессов и SQL-кода для highload-среды (батчинг, ретраи, контроль SLA).
- Написание и анализ сложного SQL кода, составляющего ETL-процессы.
3. Контроль качества данных и процессов:
- Анализ качества данных, соответствия форматно-логическому контролю и бизнес-ограничениям.
- Участие в построении мониторинга качества данных, валидаций и алертов.
- Участие в тестировании (составление тест-сценариев, анализ корректности расчетных данных) и приемочных испытаниях релизов.
- Отслеживание метрик ETL-процессов с использованием Grafana/Prometheus.
4. Координация и регламентация:
- Участие в оценке затрат, планировании работ команды и координации задач.
- Регламентирование регулярных процессов и процедур группы.
- Взаимодействие с BI-разработчиками и DevOps для обеспечения своевременной доставки данных.
Обязательные технические навыки
- Высшее техническое образование (ИТ или смежная область).
- Опыт работы в роли системного аналитика, аналитика БД или Data Engineer от 3 лет.
- Сильный SQL (PostgreSQL/Greenplum): CTE, оконные функции, сложные джоины, оптимизация запросов, анализ планов выполнения.
- Опыт работы в проектах по внедрению или развитию BI-решений и хранилищ данных (DWH).
- Опыт работы с Apache Spark от 1 года (включая готовность осваивать Java-стек для Spark).
- Опыт работы с Big Data СУБД: Greenplum, ClickHouse, а также Hadoop (HDFS, Hive).
- Опыт проектирования архитектуры и потоков данных для ETL/ELT процессов.
- Навыки сбора, формализации требований и создания проектной документации (AS-IS, TO-BE, технические спецификации).
- Умение анализировать и оптимизировать ETL-процессы, код и данные (качество данных, дедупликация, валидация).
Желательные (Nice to Have / Будет плюсом):
- Опыт в проектах миграции ETL-систем на Apache-стек (Spark, NiFi, Airflow).
- Опыт построения сквозной аналитики и атрибуции (UTM, ClientID).
- Опыт интеграций (REST API, webhooks) с CRM (Bitrix24), 1С и другими системами.
- Знание Apache Airflow для оркестрации.
- Опыт работы с BI-инструментами: Apache Superset, Qlik Sense, Power BI (публикация, моделирование, права).
- Навыки работы с Grafana, Prometheus, Kibana для мониторинга ETL-процессов.
- Базовые навыки программирования на Python.
- Понимание принципов контейнеризации (Docker, Kubernetes, OpenShift).
- Опыт работы с инструментами разработки: Bitbucket, Jira, Confluence.