Data Engineer (ML‑пайплайны и расчёт признаков) в команду платформы данных

RWB (Wildberries & Russ)

Data Engineer (ML‑пайплайны и расчёт признаков) в команду платформы данных

Описание вакансии

Мы — команда платформы данных в направлении Trust & Safety. Делаем данные и признаки для моделей машинного обучения, которые используются в антифроде, модерации контента и других продуктах. У нас есть как потоковая платформа (Databus/Kafka + Flink + Redis/Cassandra), так и “озеро” данных на S3/Apache Iceberg с доступом через Trino.

Мы ищем дата-инженера, который обеспечит расчёт и поставку признаков для ML-моделей — от чтения сырых событий до записи финальных значений в онлайн- и офлайн-хранилища.

Стек: Databus(Redpanda)/Kafka, Apache Flink, Redis, Cassandra, S3, Apache Iceberg, Trino, ClickHouse, Airflow, Python, dbt.

Вам предстоит:

  • Проектировать и разрабатывать потоковые процессы, которые читают события из Databus/Kafka и считают онлайн‑признаки, записывая их в Redis и Cassandra.
  • Проектировать и разрабатывать пакетные процессы, которые читают данные из S3/Iceberg через Trino, считают офлайн‑признаки и пишут результаты обратно в S3/Iceberg и/или ClickHouse.
  • Следить за тем, чтобы один и тот же признак был согласован между обучением и продакшеном (одна логика расчёта, единый контракт).
  • Настраивать расписания, пересчёты и бэки, чтобы признаки обновлялись вовремя и выдерживали SLA по свежести.
  • Работать с качеством данных: добавлять проверки, мониторить аномалии, разбирать инциденты, когда “признак поехал”.
  • Совместно с DS и аналитиками придумывать новые признаки и помогать перевести их из экспериментальных скриптов в стабильные пайплайны.

Вы нам подходите, если:

  • У Вас 4–5+ лет опыта в роли Data Engineer / Backend+Data;
  • Имеете уверенный опыт работы с Kafka‑подобными очередями (Databus/Kafka): продюсеры/консьюмеры, партиционирование, ключи, обработка ошибок;
  • Имеете практический опыт со streaming‑движком (желательно Flink; Spark Structured Streaming подойдёт, если есть реальный прод‑опыт);
  • Опытны в работе с Redis или Cassandra как онлайновым хранилищем данных/признаков;
  • Работали с S3‑подобным хранилищем и табличным форматом (Iceberg/Delta/Hudi) и доступа к ним через SQL‑движок (Trino/Presto/Spark SQL);
  • Отлично знаете SQL и имеете опыт работы с ClickHouse;
  • Python на уровне уверенной разработки data‑скриптов и сервисной логики;
  • Имеете опыт настройки и сопровождения пайплайнов в Airflow;
  • Понимаете задачи ML‑пайплайнов: train/serve skew, пересчёты признаков, влияние задержек и потерь событий.
Навыки
  • Apache Airflow
  • Clickhouse
  • PostgreSQL
  • Python
  • Apache Cassandra
  • Apache Kafka
  • Redis
Посмотреть контакты работодателя

Похожие вакансии

ГКУ Инфогород

Data Engineer

ГКУ Инфогород

  • Москва

  • Не указана

Рекомендуем
Онлайн-школа Тетрика

Data Engineer

Онлайн-школа Тетрика

  • Москва

  • Не указана

Рекомендуем
Ингосстрах
  • Москва

  • Не указана

СберЗдоровье
  • Москва

  • Не указана

Флаувау

Senior Data Engineer

Флаувау

  • Москва

  • Не указана

Ozon
  • Москва

  • Не указана

RWB (Wildberries & Russ)

Data Engineer DWH

RWB (Wildberries & Russ)

  • Москва

  • Не указана

Hi, Rockits!
  • Москва

  • Не указана

ГНИВЦ
  • Москва

  • Не указана

RWB (Wildberries & Russ)

SRE-инженер в WB Cloud

RWB (Wildberries & Russ)

  • Москва

  • Не указана

Бифорком Тек

Team Lead (data plane)

Бифорком Тек

  • Москва

  • Не указана

Гознак

Senior DevOps Engineer

Гознак

  • Москва

  • Не указана

2ГИС
  • Москва

  • Не указана

Агропромцифра

Data Engineer

Агропромцифра

  • Москва

  • Не указана

ARK
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию