Инженер данных (Data Engineer) (Middle / Senior / Lead)

Описание вакансии

О компании:

Присоединяйтесь к нашей команде для работы над масштабными data-driven проектами в ведущих компаниях из различных секторов: от финтеха и банков до e-commerce, ритейла и телекома. Мы ищем талантливых Инженеров данных уровней Middle, Senior и Lead, готовых строить и развивать современные платформы данных, разрабатывать надежные ETL/ELT-пайплайны и обеспечивать высокое качество данных для аналитики и машинного обучения.

Чем предстоит заниматься:

Проектирование и разработка пайплайнов: Создание, развитие и поддержка ETL/ELT-процессов для сбора, обработки и загрузки данных из разнообразных источников (реляционные СУБД, API, логи, стриминговые платформы).
Архитектура данных: Проектирование архитектуры хранилищ данных (DWH, Data Lake), моделей данных и витрин (Data Marts) для аналитических и ML-задач, включая слои Raw, ODS и DDS.
Обработка больших данных: Разработка на Python/Java/Scala с использованием Apache Spark для распределенной обработки больших объемов данных.
Оркестрация и мониторинг: Создание, оптимизация и мониторинг пайплайнов с помощью Apache Airflow; настройка SLA, retries и алертинга.
Обеспечение качества данных: Внедрение практик Data Quality (DQ), разработка тестов, профилирование данных, реализация проверок на консистентность и целостность.
Работа с базами данных: Написание и оптимизация сложных SQL-запросов для MPP-систем (Greenplum, ClickHouse) и классических СУБД (PostgreSQL).
Подготовка данных для ML: Построение и поддержка пайплайнов для подготовки признаков (feature engineering) и датасетов для команд Data Science.
Взаимодействие с командой: Тесное сотрудничество с аналитиками данных, ML-инженерами, DevOps-специалистами и бизнес-заказчиками для реализации end-to-end решений.
(Для Lead): Управление командой инженеров данных, менторство, принятие ключевых архитектурных решений, планирование и распределение задач, развитие стека технологий и инженерных практик.

Наши ожидания:

Опыт работы: От 2-3 лет (Middle), от 5 лет (Senior), от 5-7 лет с опытом лидирования (Lead) в роли инженера данных.
SQL: Экспертный уровень владения SQL, включая аналитические и оконные функции, оптимизацию сложных запросов под большие объемы данных.
Программирование: Уверенное владение Python (предпочтительно) или Java/Scala для разработки data-пайплайнов.
ETL/ELT: Глубокое понимание принципов построения ETL/ELT, архитектуры DWH и Data Lake.
Big Data: Практический опыт работы с Apache Spark и экосистемой Hadoop (HDFS, Hive, YARN).
Оркестрация: Опыт работы с оркестратором Apache Airflow (разработка и поддержка DAG'ов).
Базы данных: Опыт работы с MPP-системами (Greenplum, ClickHouse) и реляционными СУБД (в первую очередь PostgreSQL).
Инструменты и методологии: Опыт работы с Git, Jira, Confluence; понимание принципов Agile (Scrum/Kanban).
Soft Skills: Сильные аналитические способности, системное мышление, проактивность, ответственность, умение работать в команде и самостоятельно, способность быстро разбираться в сложных системах и бизнес-доменах.

Будет плюсом:

Опыт работы в финтех-индустрии (банки, инвестиции) или крупном ритейле.
Опыт работы со стриминговыми данными и брокерами сообщений (Apache Kafka, RabbitMQ, NiFi).
Опыт использования dbt (Data Build Tool) для трансформации данных.
Знание методологий моделирования данных (Data Vault 2.0).
Опыт работы с контейнеризацией (Docker, Kubernetes) и понимание CI/CD процессов для данных (DataOps).
Опыт работы с облачными платформами (Yandex.Cloud, AWS, Azure, GCP) и их data-сервисами.
Навыки администрирования СУБД и компонентов Big Data.
Опыт построения систем мониторинга и логирования (Prometheus, Grafana, ELK).

Мы предлагаем:

Работу над масштабными и технологически сложными проектами в стабильной компании.
Возможности для профессионального и карьерного роста в самых востребованных направлениях ИТ.
Сильную команду экспертов и комфортную рабочую атмосферу.
Конкурентную заработную плату, бонусы и социальный пакет.
Гибкий график и возможность удаленной работы (в зависимости от проекта).