Мы работаем в сфере интернет-трафика, big data и высоконагруженных продуктов, активно развиваемся в направлении AI.
В нашем арсенале более 10 внутренних b2b и b2c проектов собственной разработки.
Основная задача: доработка нашего нового, но уже профитного, игрового продукта мирового масштаба, который динамично растет вместе с командой.
Что предстоит делать:
• Спроектировать и реализовать архитектуру единого профиля клиента (Customer360): все данные о пользователях в одном месте, доступные в near real-time.
• Построить и развивать Data Lake как центральную точку хранения сырых и обработанных данных.
• Создать и поддерживать Data Warehouse и витрины под нужды ML, BI и продуктовых команд.
• Разрабатывать надежные ETL/ELT пайплайны (Python / Airflow / Spark / dbt).
• Выстраивать многоуровневую структуру данных: raw → staging → curated → feature layers.
• Настроить мониторинг качества данных, отслеживание метрик и алерты.
• Участвовать в выборе технологий, постановке архитектуры хранения данных.
Технологический стек:
• Data Lake: S3 / MinIO + Parquet / DeltaLake
• Хранилища: PostgreSQL, ClickHouse
• ETL: Python, Airflow, dbt
• Оркестрация: Airflow, Prefect (по выбору)
• CI/CD и инфраструктура: GitLab, Docker, Kubernetes
• Стриминг: Kafka, RabbitMQ
• ML-инфраструктура: Feature Store, Model Monitoring (совместно с ML-инженерами)
• Мониторинг и алерты: Prometheus, Grafana, кастомные метрики
Требования:
• Опыт проектирования и реализации Data Lake / Data Warehouse с нуля.
• Продвинутые знания SQL (PostgreSQL, ClickHouse).
• Опыт построения ETL/ELT пайплайнов на Python, уверенное владение pandas, pyarrow, SQLAlchemy и т.п.
• Понимание подходов к дата-моделированию: star/snowflake schemas, partitioning, schema evolution.
• Знание CI/CD, Docker
• Опыт работы с стриминговой обработкой данных (Kafka, Spark Streaming, Flink и/или RabbitMQ).
Будет плюсом:
• Опыт работы с Lakehouse архитектурой (например, DeltaLake, Iceberg, Hudi)
• Опыт в совместной работе с ML-командами (feature engineering, пайплайны, мониторинг моделей)
• Опыт работы с векторными базами данных (Faiss, Qdrant, Pinecone и др.)
• Участие в построении Feature Store, реализации data contracts, Data Quality слоёв
Почему это интересно:
• Возможность заложить архитектуру данных с нуля под реальный рост и масштаб.
• Работаете в связке с ML и backend-инженерами, внедряя реальные ML-решения в продакшн.
• Свобода выбора инструментов и подходов, минимум бюрократии.
• Влияние на стек, процессы, культуру — вы не просто исполнитель, вы архитектор системы.
Мы предлагаем:
Саратов
Не указана
Саратов
до 50000 RUR
Завод Нефтегазоборудование
Саратов
до 300000 RUR
АО «ОТП Банк» (JSC «OTP Bank»)
Саратов
от 90000 RUR
Саратов
от 90000 RUR
Саратов
до 60000 RUR
Саратов
до 60000 RUR