Москва, Московский международный деловой центр Москва-Сити, многофункциональный комплекс Башня на Набережной
Метро: Деловой центрВ подгруппу инфраструктуры данных требуется инженер данных для выполнения задач по изменению и развитию инфраструктуры данных в соответствии с общими изменениями в компании, включая переход на собственную схему хранения данных.
Вам предстоит:
Построение и поддержка ETL/пайплайнов:
Разработка, оптимизация и мониторинг для гарантированной доставки данных.
Развитие сервисной модели для аналитиков:
Предоставление качественных, документированных и актуальных данных через витрины и инструменты автоматизации, сокращая время на рутинные запросы.
Повышение надежности и прозрачности:
Помощь во внедрении единых стандартов на тестирование, мониторинг и алертинг для всех data-процессов.
Технологический стек проекта:
Оркестрация: Apache Airflow. Обработка данных: SQL, Python (Pandas), Apache Spark (PySpark).
Аналитические СУБД: ClickHouse, Vertica, Trino
Инфраструктура и инструменты: Git, Docker, Hadoop (HDFS, Hive), Kafka. Язык программирования: Python (Pandas, requests, асинхронное программирование).
Мы ожидаем:
Знание SQL (CTE, оконные функции, оптимизация запросов).
Базовые навыки профилирования и оптимизации SQL-запросов (чтение explain plan, понимание индексов).
Понимание принципов построения ETL/ELT-пайплайнов и опыт работы с Apache Airflow.
Базовые знания Python для целей обработки данных (Pandas, PySpark). Опыт работы с Git.
Понимание концепций распределенных систем и работы с большими данными (архитектура Spark, Kafka, Hadoop).
Будет преимуществом:
Практический опыт работы с Apache Kafka. Знание специфики ClickHouse (движки таблиц, особенности кластерной работы).
Опыт работы с Vertica/Trino. Навыки работы с Docker и оркестраторами (Rancher/Kubernetes).
Понимание принципов работы gRPC.
Привычка к ведению документации, понимание принципов Data Catalog (что такое глоссарий, метаданные, lineage).