Senior Data Engineer (Kandinsky)

СБЕР

Senior Data Engineer (Kandinsky)

Описание вакансии

Строим и масштабируем пайплайны для сбора, обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.

Обязанности

  • разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
  • создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
  • обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
  • построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
  • оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
  • масштабирование пайплайнов на распределенных кластерах.

Требования

  • экспертиза в построении data pipelines (Python, SQL)
  • опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
  • уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
  • опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
  • знание практик data versioning (DVC) и управления метаданными
  • навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.

Условия

  • ежегодный пересмотр зарплаты, годовую премию
  • корпоративный спортзал и зоны отдыха
  • уникальную систему обучения Сбера для профессионального развития
  • расширенный ДМС и льготное страхование для семьи
  • бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративную пенсионную программу.
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
Notamedia
Полный день
  • Москва

  • Не указана

Рекомендуем
РНПК
Полный день
  • Москва

  • до 300000 RUR

Рекомендуем
Интерфакс

Data Engineer

Интерфакс

Удаленная работа
  • Москва

  • до 300000 RUR

ВСК, САО

Data Engineer

ВСК, САО

Удаленная работа
  • Москва

  • до 300000 RUR

Марс
Полный день
  • Москва

  • до 300000 RUR

STARTRIBE LTD
Полный день
  • Москва

  • до 300000 RUR

Оператор информационной системы

Инженер данных (Data Engineer)

Оператор информационной системы

Полный день
  • Москва

  • до 300000 RUR

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Senior/Lead Data Analyst (Региональный и государственный сектор)

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день
  • Москва

  • до 300000 RUR

Детский мир
Удаленная работа
  • Москва

  • до 300000 RUR

Леста Игры
Полный день
  • Москва

  • до 300000 RUR

Альфа-Банк

Middle/Senior ML-инженер

Альфа-Банк

Удаленная работа
  • Москва

  • до 300000 RUR

БАЙКАЛ ЭЛЕКТРОНИКС
Полный день
  • Москва

  • до 300000 RUR

WILDBERRIES
Удаленная работа
  • Москва

  • до 300000 RUR

ГК Черноголовка

Senior Data Scientist/ Machine Learning Engineer

ГК Черноголовка

Полный день
  • Москва

  • до 300000 RUR

Банк ДОМ.РФ
Полный день
  • Москва

  • до 300000 RUR

Альфа-Банк
Полный день
  • Москва

  • до 300000 RUR

HeadHunter
Удаленная работа
  • Москва

  • до 300000 RUR

Эксперт РА
Полный день
  • Москва

  • до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию