Data Engineer

Москва, 1-я Тверская-Ямская улица, 2

Описание вакансии

Мы создаем и развиваем высоконагруженную платформу данных, которая является фундаментом для ключевых продуктов нашей компании. Наши решения напрямую влияют на принятие стратегических решений тысячами клиентов в режиме реального времени. Если ты хочешь работать с данными, которые действительно важны, и строить системы, которые будут обрабатывать терабайты информации, — тебе к нам.

Твоя миссия: проектировать и строить надежные, масштабируемые и эффективные системы хранения и обработки данных, превращая сырые данные в структурированные и качественные информационные активы для аналитиков, data-ученых и конечных пользователей.

Вот что ты будешь делать:

Строить ETL/ELT-конвейеры нового поколения: Проектировать и внедрять надежные пайплайны для обработки как потоковых, так и пакетных данных, используя современные инструменты (Dagster/Airflow).
Создавать архитектуру данных: Разрабатывать многослойное хранилище (Data Lakehouse) с использованием передовых форматов (Apache Iceberg, Parquet) и оптимизировать его для работы с Trino и Spark.
Воплощать в жизнь принципы Data Reliability Engineering: Внедрять процессы мониторинга качества данных (Data Quality) и наблюдаемости (Data Observability), чтобы данные были всегда достоверными и доступными.
Проектировать и предоставлять данные: Разрабатывать витрины данных и API, которые предоставят аналитикам и клиентам удобный и быстрый доступ к нужной информации.
Влиять на технологический стек: Участвовать в выборе и внедрении новых технологий, постоянно улучшая и масштабируя нашу платформу.

Технологический стек, на котором ты будешь работать:

Оркестрация: Dagster, Apache Airflow
Обработка: Python 3.x, Apache Spark (PySpark), Apache Kafka, Faust
Хранение: PostgreSQL, ClickHouse, S3-совместимые хранилища
Форматы: Apache Iceberg, Parquet, Avro
SQL-движки: Trino (Starburst), Apache Spark SQL
Инфраструктура: Docker, Kubernetes, Yandex Cloud / AWS / GCP
Мониторинг: Prometheus, Grafana, ELK Stack

Мы ищем тебя, если у тебя есть:

Опыт коммерческой разработки ETL/ELT-процессов на Python (от 2-х лет).
Отличное знание SQL и глубокий опыт работы с различными СУБД (PostgreSQL, ClickHouse).
Практический опыт проектирования и построения DWH / Data Lakehouse.
Опыт работы с одним из фреймворков оркестрации (Dagster, Airflow, Prefect).
Понимание принципов потоковой обработки данных (Kafka).
Умение проектировать оптимальные схемы хранения данных и знание колоночных форматов (Parquet).
Готовность работать с современным и быстро evolving-стеком.

Будет серьезным плюсом, если ты знаком с любым из этого:

Apache Iceberg, Delta Lake, Hudi
Trino (Presto SQL), Apache Drill
Apache Spark (PySpark)
Концепциями Data Mesh и Data Product
Настройкой мониторинга качества данных (Data Quality)
Kubernetes и облачными платформами (YC, AWS, GCP)
Предметной областью (финансовые рынки, управление рисками)

Что мы предлагаем, кроме интересных задач?

Работа с флагманским продуктом: Твои решения будут влиять на продукт компании с высокой бизнес-ценностью.
Современный стек и экспертиза: Мы используем Dagster, Iceberg, Trino — ты будешь работать с трендовыми и востребованными технологиями, а не с устаревшим легаси.
Влияние и ответственность: Возможность напрямую влиять на архитектуру и выбор технологий с первого дня.
Команда единомышленников: Работа в сильной и мотивированной команде экспертов, готовых делиться знаниями и поддерживать друг друга.
Гибридный формат: Современный подход к работе — мы ценим результат, а не присутствие в офисе с 9 до 6.
Развитие: Мы заинтересованы в твоем росте и готовы предоставлять возможности для обучения и посещения конференций.