Data Lakehouse Engineer

RWB (Wildberries & Russ)

Data Lakehouse Engineer

Москва, Серпуховско-Тимирязевская линия, метро Полянка

Метро: Октябрьская

Описание вакансии

Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой.

Вам предстоит:

  • Проектировать и развивать Data Lakehouse платформу с нуля
  • Строить надежную и масштабируемую архитектуру хранения и обработки данных
  • Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino
  • Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности
  • Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора
  • Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake
  • Развивать слой метаданных и каталогизации данных (Polaris как metastore)
  • Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm)
  • Оптимизировать производительность, стоимость вычислений и хранения
  • Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana
  • Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт
Вы нам подходите, если:
  • Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений.
  • Имеете опыт проектирования DLH с нуля будет большим преимуществом
  • Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов
  • Имеете опыт оптимизации Spark jobs и SQL-запросов
  • Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий)
  • Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов
  • Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов
  • Опыт работы с Kubernetes и контейнеризированными платформами
  • Опыт управления инфраструктурой через GitOps (ArgoCD, Helm)
  • Инженерный подход, самостоятельность и способность принимать архитектурные решения
  • Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт

Будет плюсом, если вы:

  • Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark)
  • Имеете опыт построения self-service Data Platform
  • Имеете опыт проектирования multi-tenant Data Lakehouse
  • Имеете опыт настройки безопасности, governance и управления доступами
  • Имеете опыт работы с Iceberg catalog / Polaris
  • Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке
  • Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик
  • Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий
  • Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения
Наш стек технологий:
  • Аpache Spark
  • DBT (Spark DBT, Trino DBT)
  • Trino
  • Apache Airflow
  • S3-совместимое объектное хранилище
  • Kubernetes
  • Apache Polaris (metastore)
  • GitOps (ArgoCD, Helm)
  • Prometheus, VictoriaMetrics, Grafana
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Флаувау

Senior Data Engineer

Флаувау

  • Москва

  • Не указана

Рекомендуем
Агропромцифра

Data Engineer

Агропромцифра

  • Москва

  • Не указана

Рекомендуем
NGENIX
  • Москва

  • Не указана

Рекомендуем
RWB (Wildberries & Russ)
  • Москва

  • Не указана

ВСК, САО
  • Москва

  • Не указана

Tripster
  • Москва

  • Не указана

Национальная Лотерея

Data Engineer

Национальная Лотерея

  • Москва

  • Не указана

«UZUM TECHNOLOGIES»
  • Москва

  • Не указана

Агропромцифра

Senior Data Analyst

Агропромцифра

  • Москва

  • Не указана

М.Видео-Эльдорадо

Data Scientist (Senior)

М.Видео-Эльдорадо

  • Москва

  • Не указана

Специализированный депозитарий ИНФИНИТУМ

Senior ML Engineer

Специализированный депозитарий ИНФИНИТУМ

  • Москва

  • Не указана

RWB (Wildberries & Russ)
  • Москва

  • Не указана

Мокка
  • Москва

  • Не указана

PravoTech
  • Москва

  • от 300000 RUR

Rubius

Data Engineer

Rubius

  • Москва

  • от 300000 RUR

ARK
  • Москва

  • от 300000 RUR

RWB (Wildberries & Russ)

Data Engineer (Геосервисы)

RWB (Wildberries & Russ)

  • Москва

  • от 300000 RUR

Rubius
  • Москва

  • от 300000 RUR

Rusprofile
  • Москва

  • от 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию