NLP Engineer (GigaChat)

СБЕР

NLP Engineer (GigaChat)

Описание вакансии

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России

Обязанности

  • генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web;
  • исследовать токенизацию и ее влияния на качество модели (возможно написание статей);
  • решать задачи кластеризации миллиардов документов;
  • исследовать разные факторы, которыми обладают текстовые данные;
  • генерировать Vision данные для прокачки VLM;
  • разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели;
  • исследовать зависимости между pretrain данными и agentic capabilities итоговой модели;
  • разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.

Требования

  • имеешь коммерческий релевантный опыт связанный с NLP или построением инфраструктуры для данных от двух лет;
  • будет преимуществом: если ты имеешь диплом ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ школы прикладной математики и информатики и/или есть опыт с MapReduce системами, например, YT.

Условия

  • комфортный современный офис рядом с м. Кутузовская в Москве или в Питере рядом с м. Спортивная/Василеостровская;
  • гибридный формат работы (2 дня в офисе, 3 дня на удалёнке);
  • команда активных и амбициозных (играем командой в настолки в офисе или лофте, ездим на конференции (особенно, если пишем статьи));
  • ежегодный пересмотр зарплаты, годовая премия;
  • корпоративный спортзал и зоны отдыха;
  • система обучения для профессионального и карьерного развития;
  • расширенный полис ДМС с первого дня работы и страхование для семьи;
  • льготная программа ипотеки для сотрудников;
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
  • вознаграждение за рекомендацию друзей в команду Сбера.
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕРКОРУС
Полный день
  • Москва

  • Не указана

Рекомендуем
Т-Банк
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Positive Technologies
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

2ГИС
Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Т-Банк
Полный день
  • Москва

  • Не указана

Платформа ОФД

Data scientist (NLP) middle/sen

Платформа ОФД

Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Т-Банк
Полный день
  • Москва

  • Не указана

СБЕР
Удаленная работа
  • Москва

  • Не указана

Октопустех
Удаленная работа
  • Москва

  • Не указана

СБЕР

NLP Engineer

СБЕР

Удаленная работа
  • Москва

  • Не указана

КРОК
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию