NLP engineer (GigaChat Pretrain Data)

СБЕР

NLP engineer (GigaChat Pretrain Data)

Описание вакансии

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.

Обязанности:

  • генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web
  • исследовать токенизацию и ее влияния на качество модели (возможно написание статей)
  • решать задачи кластеризации миллиардов документов
  • исследовать разные факторы, которыми обладают текстовые данные
  • генерировать Vision данные для прокачки VLM
  • разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели
  • исследовать зависимости между pretrain данными и agentic capabilities итоговой модели
  • разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.

Требования:

  • выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
  • имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет
  • навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
  • опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
  • инструментальное владение AI для анализа, генерации и автоматизации.

Условия:

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • система обучения для профессионального и карьерного развития
  • расширенный полис ДМС с первого дня работы и страхование для семьи
  • льготная программа ипотеки для сотрудников
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Посмотреть контакты работодателя

Похожие вакансии

СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
БИОС
Полный день
  • Москва

  • до 400000 RUR

Рекомендуем

NLP инженер

АльфаСтрахование-ОМС

Удаленная работа
  • Москва

  • до 400000 RUR

Рекомендуем
МегаФон
Удаленная работа
  • Москва

  • до 400000 RUR

ГУП Московский социальный регистр

Data Scientist

ГУП Московский социальный регистр

Полный день
  • Москва

  • до 400000 RUR

SkillStaff
Удаленная работа
  • Москва

  • до 400000 RUR

РСХБ-Интех
Удаленная работа
  • Москва

  • до 400000 RUR

Отраслевой центр разработки и внедрения информационных систем / ОЦРВ

Middle NLP инженер

Отраслевой центр разработки и внедрения информационных систем / ОЦРВ

Удаленная работа
  • Москва

  • до 400000 RUR

Военно-патриотический тренировочный центр ВОЕВОДА

Специалист по машинному зрению (Computer Vision Engineer)

Военно-патриотический тренировочный центр ВОЕВОДА

Полный день
  • Москва

  • от 250000 RUR

СБЕР
Полный день
  • Москва

  • от 250000 RUR

WILDBERRIES
Полный день
  • Москва

  • от 250000 RUR

Моделирование и цифровые двойники

Middle MLOps – инженер (LLM/VLM)

Моделирование и цифровые двойники

Полный день
  • Москва

  • от 250000 RUR

Контур
Удаленная работа
  • Москва

  • от 250000 RUR

СБЕР
Полный день
  • Москва

  • от 250000 RUR

Удаленная работа
  • Москва

  • от 250000 RUR

Октопустех

ML-инженер

Октопустех

Удаленная работа
  • Москва

  • от 250000 RUR

СБЕР
Полный день
  • Москва

  • от 250000 RUR

Аналитический центр при Правительстве Российской Федерации

Инженер данных / Аналитик данных (средний уровень)

Аналитический центр при Правительстве Российской Федерации

Полный день
  • Москва

  • от 250000 RUR

СБЕР
Полный день
  • Москва

  • от 250000 RUR

Институт искусственного интеллекта AIRI

Middle/Senior Data Scientist в группу New Materials Design

Институт искусственного интеллекта AIRI

Полный день
  • Москва

  • от 250000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию