Data Инженер (RnD ML)

СБЕР

Data Инженер (RnD ML)

Москва, Кутузовский проспект, 32к1

Метро: Кутузовская

Описание вакансии

Команда RnD NLP занимается исследованиями на переднем краю LLM-строения. Мы стремимся доводить результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.

Обязанности

  • Подготовка мультимодальных датасетов и бенчмарков для ML экспериментов продуктовыми командами по различным направлениям генеративных моделей: speech, music, image, video, 3D, text
  • Сбор, обработка и хранение данных из открытых источников (web-сайты, huggingface, youtube, telegram, VK, pinterest, и пр)
  • Генерация синтетических данных различными open-source моделями (qwen, flux, gemini и др)
  • Организация проектов ручного сбора и валидации данных на крауд-платформах TagMe, Elementary, ЯЗ
  • Фильтрация и процессинг данных на предмет дублей, блюра, вотермарок, неправомерного контента, реалистичности, эстетичности и технического качества.

Технический стек:

S3, PG, Hadoop, GreenPlum, Airflow, Docker, Kubernetes, Git, Vault, Python/SQL, ML Space, Confluence, Jira

Требования

  • Знания Python (библиотеки для работы с данными и API)
  • Понимание принципов ETL/ELT, жизненного цикла данных
  • Опыт работы с ML-пайплайнами и дата сетами для CV/NLP
  • Навыки работы с SQL (SELECT, JOIN, агрегаты, простые подзапросы)
  • Базовое понимание форматов данных (CSV, JSON, Parquet), принципов сериализации и хранения
  • Опыт работы с Docker/Kubernetes

Будет плюсом:

  • Опыт работы с Airflow или другими оркестраторами
  • Понимание облачных сервисов

Условия

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат работы
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • система обучения для профессионального и карьерного развития
  • расширенный полис ДМС с первого дня работы и страхование для семьи
  • программа ипотеки для сотрудников
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.
Навыки
  • S3
  • Hadoop
  • Greenplum
  • Python
  • SQL
  • Kubernetes
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Банк ВТБ (ПАО)
  • Москва

  • Не указана

Рекомендуем
МТС
  • Москва

  • Не указана

Рекомендуем
СБЕР

ML Engineer

СБЕР

  • Москва

  • Не указана

Рекомендуем
Агропромцифра

Data Scientist

Агропромцифра

  • Москва

  • Не указана

Rubytech
  • Москва

  • Не указана

Цифровой аудит

ML-инженер

Цифровой аудит

  • Москва

  • Не указана

Банк ВТБ (ПАО)

Middle \ Senior Data Scientist (LLM)

Банк ВТБ (ПАО)

  • Москва

  • Не указана

Тера Интегро

Data Engineer (S3, Spark)

Тера Интегро

  • Москва

  • Не указана

Ozon
  • Москва

  • Не указана

Тера Интегро

Data engineer (оптимизация)

Тера Интегро

  • Москва

  • Не указана

Lamoda Tech
  • Москва

  • Не указана

GlowByte

Data Scientist

GlowByte

  • Москва

  • Не указана

Яндекс
  • Москва

  • Не указана

СБЕРКОРУС

Data scientist (NLP, LLM)

СБЕРКОРУС

  • Москва

  • Не указана

Банк ПСБ
  • Москва

  • Не указана

Островок
  • Москва

  • Не указана

Росгосстрах

ML-инженер

Росгосстрах

  • Москва

  • Не указана

Rubytech

Data Engineer

Rubytech

  • Москва

  • Не указана

СБЕР
  • Москва

  • до 175000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию