Привет! Мы разрабатываем Riorise — мобильную MMO RPG. Игра сочетает open-world, roleplay RP, симулятор жизни, гонки и социальную песочницу, где тысячи игроков взаимодействуют в реальном времени.
Мы ищем дата-инженера, который будет отвечать за надежность, производительность и развитие нашей аналитической платформы. У нас много событийных данных, ClickHouse, Airflow, dbt, BI-отчеты и продуктовые витрины.
Чем предстоит заниматься:
- Проектировать, поддерживать и оптимизировать ETL/ELT-процессы в Airflow: регулярные инкрементальные загрузки, backfill, cleanup, full-refresh, обработка исторических данных.
- Развивать ClickHouse-хранилище: проектировать таблицы, партиционирование, ключи сортировки, TTL/cleanup-логику, оптимизировать тяжелые запросы и снижать лишние full scan по большим таблицам.
- Работать с событийными потоками: ingestion из RabbitMQ/сырых event-таблиц, дедупликация, парсинг JSON-событий, контроль пропусков, восстановление необработанных событий.
- Поддерживать и развивать dbt-модели и BI-витрины: продуктовые отчеты, агрегаты, исторические срезы, контроль полноты и корректности данных.
- Разбирать инциденты с данными: почему отчет полупустой, где пропали исторические значения, почему DAG стал выполняться дольше, почему накапливается очередь, какие данные можно восстановить из raw-слоя.
- Строить мониторинг качества и свежести данных: лаги пайплайнов, объемы входящих/обработанных событий, пропуски по датам/категориям, аномалии в витринах, длительность DAG/task.
- Оптимизировать существующие процессы, а не только добавлять новые: убирать неэффективные anti-join/NOT IN, тяжелые FINAL, полные OPTIMIZE, лишние 90-дневные cleanup-циклы, неоправданные full-refresh.
- Делать восстановление данных управляемым: безопасные backfill-сценарии, батчирование, проверка результата, повторяемые процедуры для восстановления витрин и raw/event-потоков.
- Документировать критичные пайплайны: источники, SLA, логика дедупликации, как делать backfill, где смотреть бэклог, какие таблицы являются source of truth.
- Работать вместе с аналитиками и продуктом: быстро понимать, какая витрина влияет на отчет, какие события нужны бизнесу, и как техническая проблема проявляется в продуктовой аналитике.
Нам важно:
- Уверенный SQL и опыт оптимизации запросов на больших объемах данных.
- Практический опыт с ClickHouse или похожими columnar OLAP-хранилищами.
- Опыт с Airflow: DAG-и, retries, timeouts, backfill, dependency management, диагностика долгих task.
- Понимание event-driven data pipelines: очереди, raw events, idempotency, дедупликация, late events.
- Опыт с dbt или похожим подходом к аналитическим моделям.
- Готовность соединить в работе data engineering, AI-инструменты и практическую автоматизацию внутренних процессов.
- Умение расследовать проблемы системно: от симптома в BI-отчете до конкретного запроса, таблицы, ключа сортировки или сломанной логики cleanup.
- Желание работать не только над “доставить данные”, но и над надежностью всей data-платформы.
Что мы предлагаем:
- Полностью удаленную работу;
- Гибкий график — ориентируемся на результат, а не на часы;
- ДМС после испытательного срока;
- Возможность напрямую влиять на рост международного игрового проекта;
- Большая свобода в тестировании гипотез, форматов и подходов;
- Команда, ориентированная на быстрые итерации и масштабирование успешных решений.