Senior Data Engineer (GigaChat Vision)

СБЕР

Senior Data Engineer (GigaChat Vision)

Описание вакансии

Мы ищем Senior Data Engineer, который будет отвечать за инфраструктуру, пайплайны и качество данных для обучения современных Vision-Language Models. Роль находится на стыке data engineering и ML: нужно будет работать с большими мультимодальными датасетами, понимать потребности исследователей и ML-инженеров, строить пайплайны очистки, фильтрации, категоризации и генерации данных, а также обеспечивать воспроизводимый экспорт данных в формат для обучения моделей.

Обязанности

  • Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.
  • Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.
  • Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.
  • Отвечать за инфраструктуру хранения и подготовки данных, включая:
  1. импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;
  2. валидацию и контроль качества данных;
  3. хранение и версионирование датасетов;
  4. экспорт данных в форматы, пригодные для обучения моделей.
  • Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.
  • Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.
  • Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.
  • Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.
  • Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.

Требования

  • Сильный опыт в data engineering и построении production-grade data pipelines.
  • Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.
  • Опыт работы с большими объёмами данных и распределённой обработкой.
  • Практический опыт с объектными хранилищами, в частности S3 или аналогами.
  • Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.
  • Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.
  • Опыт работы с DVC, Git, Docker.
  • Опыт работы с PostgreSQL или другими реляционными базами данных.
  • Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.
  • Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.
  • Готовность работать на стыке engineering и ML research.

Будет плюсом

  • Опыт работы с мультимодальными данными: изображения, текст, image-text pairs, captions, OCR, metadata.
  • Понимание того, как устроены современные датасеты для обучения VLM / LMM / multimodal models.
  • Опыт построения пайплайнов для synthetic data generation.
  • Опыт реализации quality scoring, filtering, semantic deduplication, clustering или data attribution.
  • Опыт визуализации статистики по большим датасетам и построения внутренних аналитических дашбордов.
  • Опыт работы с Common Crawl, LAION-подобными датасетами, open-source vision-language datasets.
  • Базовое понимание ML training pipeline и того, как качество данных влияет на качество модели.

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность быть соавтором НИРов и статей для международных конференций
  • возможность выбрать удобный формат работы: гибрид или офис
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
  • Москва

  • Не указана

Рекомендуем
СБЕР
  • Москва

  • Не указана

Рекомендуем
АТОЛ, группа компаний
  • Москва

  • Не указана

Рекомендуем
СБЕР
  • Москва

  • Не указана

Яндекс
  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

Онкодиагностика Атлас

Senior / Lead Bioinformatics

Онкодиагностика Атлас

  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

Brand Analytics

ML Lead

Brand Analytics

  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

X5 Tech
  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

Центр Биометрических Технологий

Директор по данным/Data officer/Тимлид дата-офиса

Центр Биометрических Технологий

  • Москва

  • Не указана

Платформа Третье Мнение

NLP-инженер

Платформа Третье Мнение

  • Москва

  • Не указана

Яндекс
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию