Мы - команда платформы данных в направлении Trust & Safety. Наша миссия - обеспечить T&S доступом к достоверным, актуальным и структурированным данным, предоставив надежную технологическую платформу и инструменты для их эффективного использования.
Мы строим платформу, которая объединяет в себе решения для:
- Хранения больших данных;
- Высокопроизводительных запросов (OLAP);
- Потоковой и батч-обработки;
- Визуализации и оркестрации данных.
Мы ищем разностороннего инженера, который сможет не только проектировать и разрабатывать пайплайны данных, но и активно участвовать в развитии платформенных сервисов, которому интересно разбираться в новом, который не боится задач на стыке разработки и дата инжиниринга.
Стек команды: Clickhouse (обязательно), Trino, S3, Apache Iceberg, Cassandra; Apache Flink, Apache Airflow, Python, dbt; Kafka / RedPanda; Apache Superset, Redash.
Вам предстоит:
- Развивать платформу: внедрение, настройка и поддержка компонентов платформы данных, обеспечение их отказоустойчивости и масштабируемости.
- Работать с архитектурой данных: проектирование и оптимизация архитектуры хранения больших данных, разработка эффективных схем данных под аналитические задачи.
- Настраивать ETL/ELT процессы: настройка и оптимизация пайплайнов обработки данных (как потоковых, так и батчей), обеспечение качества и надежности данных на всех этапах.
- DevOps часть задач для Данных: мониторинг производительности кластеров, тюнинг запросов, управление доступом и поддержка пользователей (аналитиков, дата-сайентистов).
- Исследовать: быстрое погружение в новые предметные области и технологии для решения нестандартных задач.
Вы нам подходите, если:
- Имеете опыт от 5 лет в области Data Engineering;
- Понимаете принципы работы с Big Data (распределенные вычисления, партиционирование, шардирование);
- Умеете проектировать сложные архитектуры решений для обработки данных;
- Отлично знаете SQL и опытны в оптимизации сложных запросов (особенно для OLAP-систем);
- Опытны с работой с потоковой обработкой данных и батч-процессами;
- Уверенно владеете Python для написания скриптов автоматизации, интеграционных задач;
- Имеете практический опыт настройки CI/CD пайплайнов для Data проектов: линтеры, тесты, автоматическая выкладка дагов Airflow или dbt-моделей.