Доброго времени суток!
Мы молодая и активно развивающаяся финтах компания, и сейчас мы в поиске хорошего специалиста на позицию Data Engineer.
• Проектирование архитектуры загрузки данных: выбор стратегии репликации (CDC, batch), настройка инструментов трансфера;
• Развёртывание и конфигурация кластеров ClickHouse, PostreSQL, MariaDB, Mongo (партиционирование, оптимизация схем под запросы);
• Разработка и поддержка ETL-процессов: обеспечение целостности, дедупликации, обработка ошибок;
• Мониторинг производительности пайплайна, оптимизация запросов к базе данных, работа с планами выполнения;
• Автоматизация рутинных операций с помощью Python/Bash;
• Взаимодействие с командой инфраструктуры по вопросам сетевой доступности и безопасности коммуникации с заказчиком и смежными командами;
• Проектирование таблиц и витрин (raw → stage → mart);
• Партиционирование, TTL, дедупликация;
• Контроль качества данных, алерты и проверки, разбор инцидентов;
• Поддержка production-витрин и базы данных;
• Поиск узких мест в запросах, переписывание тяжелых SQL;
• Сложные join’ы по user identity, оптимизация стоимости хранения;
• Подготовка витрин для аналитики, сборка цепочек событий, Schema evolution;
• Идемпотентные пайплайны и ретраи и работа с массивами и nested структурами;
• Минимизация чтения данных и оптимизация нагрузки на кластер.
Что по навыкам?
Наш стек: ClickHouse; S3-хранилище; Airflow; Python; JSON; Mongo. Maria DB, PostreSQL, Data Late
• Опыт разработки и поддержки end-to-end пайплайнов данных, получения данных из различных типов API;
• Опыт работы с потоковой обработкой данных и разработки ETL-процессов и с большими таблицами (десятки/сотни миллионов строк);
• Мастер владения SQL (оконные функции, оптимизация запросов, анализ планов, процедуры), опыт работы с PostgreSQL, MariaDB;
• Умение работать с GIT;
• Уверенное знание работы потоков;
• Python для обработки данных;
• Понимание партиционирования и инкрементальных загрузок;
• Понимание идемпотентности, ретраев, backfill;
• Linux: уверенное владение командной строкой, работа с логами, systemd;
• Опыт работы от 3х лет.
Будет плюсом:
Опыт
+ Опыт работы с облачными платформами (любой: Yandex Cloud, AWS, Azure) — развертывание управляемых баз данных, объектных хранилищ;
+ Опыт в проектах Яндекса или стартапах экосистемы Яндекса;
+ Знание Kafka, Debezium, Airflow;
+ Знание предметных областей: банки, кредитные риски;
+ Понимание основ информационной безопасности при передаче данных.
Что мы предлагаем?
+ Конкурентоспособную заработную плату по итогам прохождения технического собеседования;
+ Полностью удаленная работа, можно работать из любой точки мира;
+ Рабочий график 5/2 с 9 до 18 по МСК, но само собой важно выполнять задачи по дедлайнам и быть на связи, ведь это удаленка;
+ Оформление по договору ГПХ или по ИП РФ;
+ Команда на драйве, фанаты своего дела и сильное окружение, с которым ты растешь только вперед! Свободное презентация и продвижение ваших идей 🔥
Мы вас слышим!