Проектировать, разрабатывать и поддерживать процессы ETL для загрузки данных в/из Data Lake
Оптимизировать работу существующих дата-пайплайнов
Интегрировать новые источники данных в Data Lake
Разрабатывать механизмы контроля качества загружаемых данных (ручные и автоматические тесты DQ)
Проводить и проходить код-ревью
Помогать и обучать менее опытных коллег
Прививать практики "хорошего кода" в команде
Мы ожидаем:
Образование в ИТ, фундаментальных науках
Свободный русский, английский на уровне выше среднего
Понимание работы базы данных и принципов разработки DWH
Понимание хранилищ данных, очистки данных, конвейеров данных и других аналитических методов, необходимых для использования данных
Опыт работы с технологиями, S3, Airflow, Apache Spark, Clickhouse, Postgres от 5 лет
Хорошее знание SQL, Python (PySpark) / Scala от 5 лет
Опыт разработки потоковой передачи данных, опыт работы с CDC
Опыт работы со стеком Yandex Cloud Platform/ Azure от 3 лет
Опыт работы с Docker, Kubernetes
Мы предлагаем:
Конкурентную заработную плату, квартальные/годовые премии
Расширенный ДМС для тебя и членов семьи, включая стоматологию
Гибридный график работы
Страхование жизни с первого рабочего дня
100% оплату больничного листа
Корпоративную программу софинансирования долгосрочных накоплений
Компенсацию питания, оплату мобильной связи и интернета
Возможности карьерного и профессионального развития, а также обучение за счет компании
Корпоративную программу по поддержке здоровья и благополучия сотрудников (консультации с финансовыми специалистами, юристами, психологами и экспертами по здоровому образу жизни, марафоны здоровья и др.)
Работу в современном дружелюбном к домашним питомцам офисе
Возможность приобретать продукцию компании с корпоративной скидкой