Ключевые цели:
- Построение и поддержка надёжных ETL/ELT-пайплайнов для проекта «Система автоматизированного сравнения опросных листов и технических предложений».
- Обеспечение качества, доступности и консистентности данных для аналитики и ML-моделей.
Обязанности:
Архитектура и разработка
- Проектирование и поддержка ETL/ELT-пайплайнов в Airflow, настройка DAG'ов и retry-политик.
- Интеграция источников данных (PostgreSQL, Clickhouse, Kafka, NIFI), загрузка в GreenPlum/ClickHouse.
- Реализация трансформаций, агрегаций и витрин данных для аналитики и ML.
Инфраструктура и процессы
- Настройка мониторинга пайплайнов: алерты на задержки, ошибки, дрейф схем.
- Автоматизация тестирования данных, контроль качества (null-checks, уникальность, консистентность).
- Управление версиями кода пайплайнов, интеграция с Git, настройка staging/prod промоутов.
Взаимодействие и аналитика
- Согласование контрактов данных с backend- и ML-командами, валидация форматов.
- Анализ производительности запросов, оптимизация хранения и вычислений.
- Документирование пайплайнов, формирование data catalog'ов и словарей метрик.
Требования: - Высшее образование (техническое).
- Коммерческий опыт работы дата-инженером от 2 лет, понимание жизненного цикла данных в enterprise-среде.
- Практический опыт оркестрации пайплайнов, работы с событийными шинами и колоночными хранилищами.
- Понимание принципов Data Quality, мониторинга дрейфа и валидации входных данных.
- Понимание принципов обработки больших массивов данных, map/reduce, оконные функции.
Технические навыки:
- Уверенное владение Python 3.11+, Apache Airflow 2.7+, Celery для оркестрации задач.
- Опыт работы с PostgreSQL, GreenPlum, ClickHouse, Kafka, Apache NIFI/Spark.
- Понимание принципов проектирования DWH, оптимизации запросов, управления партициями и индексами.
- Знание Docker, базовых CI/CD практик для data-пайплайнов.
Личностные качества:
- Внимательность к консистентности данных, проактивный подход к выявлению аномалий.
- Умение работать в условиях нечётких требований, быстро адаптировать пайплайны под изменения.
- Коммуникабельность, готовность синхронизироваться с аналитиками и ML-инженерами.
Условия: - Оформление по договору ГПХ , срочный договор до конца 2026 с возможностью продления по результатам.
- Гибкий формат работы.
- Конкурентная проектная ставка, прозрачная система приёмки этапов.
- Доступ к корпоративным ресурсам, современному стеку и техническому менторству.
- Возможность перехода на постоянную основу по итогам проекта.