Мы создаём новую систему сбора и обработки данных систем ЦОД — от серверов и платформ виртуализаций до систем резервного копирования.
Проект строится с нуля на базе современного open-source стека: Airflow 3, Python, dbt, Trino, PostgreSQL, S3, Apache Iceberg.
Цель — заменить унаследованное решение на гибкую, управляемую и прозрачную data-инфраструктуру в составе DLH (параллельно с классическим DWH), которая станет единым источником данных для всей компании.
Чем предстоит заниматься:
- Участвовать в проектировании архитектуры и паттернов ELT-платформы (возможность разработать именно платформенное решение);
- Разрабатывать кастомные операторы и пайплайны на Airflow + Python для сбора данных из различных источников (API, SDK, Windows/Linux);
- Формировать модели данных и витрины Raw → Core → Mart в PostgreSQL, S3 (Iceberg), Clickhouse с использованием dbt;
- Подключать источники и витрины к Trino, оптимизировать SQL-запросы, настраивать кэширование;
- Автоматизировать тестирование и выстраивать CI/CD пайплайны (GitLab, dbt tests, Airflow DAG validation);
- Следить за качеством данных и стабильностью пайплайнов (data-quality, observability, lineage), участвовать в код-ревью и аудите пайплайнов;
- Влиять на архитектуру, стандарты и инженерную культуру проекта и Data Lakehouse.
Ищем инженера, который: - Мыслит системно;
- Готов разбираться в продуктах, выступающих источниками данных;
- Знает основы Python и имеет опыт разработки различных скриптов, DAGов;
- Уверенно владеет SQL и понимает, как строить эффективные запросы и модели данных;
- Работал с Airflow, dbt или аналогами (Dagster, Prefect, Luigi), git;
- Понимает, как строятся дата-пайплайны;
- Знает, как работает REST API и умеет собирать данные из разных систем источников;
- Ценит reproducibility, code review и CI/CD в работе с данными;
- Готов развивать продукт и развиваться сам.
Будет плюсом:
- Опыт сбора данных из систем виртуализации (VMware, OpenStack, Proxmox, Basis), систем резервного копирования.
- Знание подходов Data Vault 2.0, SCD2.
- Навыки работы с Docker, GitLab CI/CD, Linux.
- Опыт работы с NiFi, Prefect или Kafka как ingestion-шиной.
- Участие в проектах по миграции с легаси-ETL на open-source стеки.
- Опыт работы в ЦОД.
Что мы предлагаем: -
Открытость и воспроизводимость: всё описано в коде, все пайплайны versioned и тестируются;
-
Инженерная культура: меньше “нажимания кнопок”, больше осознанного проектирования;
-
Автоматизация и элегантность: делаем сложно — просто;
-
Data as a Product: данные рассматриваются как актив, а не побочный продукт систем;
-
Участие в архитектурно значимом проекте, который реально идёт в продакшн;
-
Возможность влиять на стек и решения — от формата данных до CI/CD-подходов.
- Официальное трудоустройство по ТК РФ (Аккредитованная IT-компания);
- Оклад + ежеквартальные премии;
- Удаленный или гибридный формат работы;
- Социальный пакет (ДМС, оплата мобильной связи);
- Корпоративная программа лояльности (профессиональное обучение, фитнес-активности, обучение языкам, подписка Wink и многое др.).