Data scientist (NLP) middle/sen

Платформа ОФД

Data scientist (NLP) middle/sen

Москва, Усачёва улица, 33с1

Метро: Лужники

Описание вакансии

Платформа ОФД - продуктовая IT- компания, крупнейший в России оператор фискальных данных. № 1 в рейтинге ОФД по данным CNews, резидент Сколково.

Мы анализируем рынок российского ритейла на данных из чеков в режиме реального времени. Ежедневно мы обрабатываем 60 млн кассовых чеков - каждый 3-й чек, пробиваемый в России. В нашей базе 2 млрд уникальных названий товаров.

Наша команда DS:

Строит NLP-ядро решения для автоматической категоризации товарных строк из чеков и извлечения атрибутов, конечной целью которого является восстановление товарной позиции до SKU (полное единое представление товара из чека со всеми присущими ему атрибутами). Ввиду уникальности экспертизы работы с языковыми моделями в обязанности команды также входит внедрение AI-агентов в процессы смежных подразделений компании

Ваша роль в команде и основные задачи:

Разработка ML-моделей/rule-based/иных решений под поставленные задачи, поиск/лидирование разметки данных для обучения, покрытие мониторинговыми метриками, близкими к продуктовым

Обучение, заказ разметки, деплой и покрытие прод метриками модели под следующие типы задач:
1. Классификация позиций в чеках по древовидному каталогу
2. NER и нормализация атрибутов чековых данных
3. AI-агенты на основе локальных LLM для внутреннего использования DS-команды и автоматизации задач смежных подразделений
4. Прочие инструменты для разметки данных (очистка, препроцессинг и пр. rule-based решения)

Ближайшие ключевые задачи:

- Быстрые адаптивные решения под отраслевые проекты (классификация и атрибуция)
- AI-агенты для разметки, ТП и чата
- Ресерч альтернатив ядерного решения

Требования к кандидату:

- Трансформеры в NLP: коммерческий опыт обучения и эксплуатации
- Векторные представления + Retrieval/Re-rank
- Информационное извлечение в ритейле (NER, нормализация, линковка)

- Продуктовое мышление и работа с метриками
- Структуризация задач на компоненты и эксперименты (из "сырой" в шаги разработки)
- Умение формировать вывод и защищать результат

Желателен опыт работы с LLM (инференс/агенты): fine-tuning, дообучение, дистилляция, квантование

Стек, который мы используем:

Данные:
1. Обширная ресерч-база, представленная миллиардами уникальных строк чековых наиманований, охватывающая весь возможный спектр отраслей
2. Челендж в виде обработки миллионов уникальных наименований ежедневно
3. Шумные нейминги, лонг-тейл категорий, постоянный поток новых формулировок/синонимов

Инфраструктура:
1. Разделение серверов на r&d и пром
2. On-prem GPU для обучения и инференса нейросетевых моделей различной архитектуры, включая LLM
3. Хранилище данных на Hadoop

Как проходит найм:

  • Техническое интервью с TL команды DS
  • Выполнение тестового задания

Мы предлагаем условия:

  • Комфортный офис с relax зоной близко от м. Спортивная / МЦК Лужники
  • График работы гибридный: офис 1 раз в неделю по пятницам. Гибкое время начала рабочего дня
  • Трудоустройство по ТК РФ, белая заработная плата
  • ДМС, включая госпитализацию, скорую и стоматологию
  • Насыщенную корпоративную жизнь
  • Обучение и семинары за счет компании
Навыки
  • Python
  • Big Data
  • Hadoop
  • SQL
  • Spark
  • NLTK
Посмотреть контакты работодателя

Адрес

Похожие вакансии

СберМедИИ

Data Scientist (Middle+/Senior)

СберМедИИ

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
2ГИС
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
ГУП Московский социальный регистр

Data Scientist

ГУП Московский социальный регистр

Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Медиапоинт

Senior Data Scientist (Big Data)

Медиапоинт

Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

билайн
Удаленная работа
  • Москва

  • Не указана

Платформа Больших Данных

Data Scientist (Middle)

Платформа Больших Данных

Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Платформа Третье Мнение

NLP Engineer

Платформа Третье Мнение

Удаленная работа
  • Москва

  • Не указана

Удаленная работа
  • Москва

  • Не указана

МТС
Удаленная работа
  • Москва

  • Не указана

АПТЕКИ ВАША № 1

Data Scientist / ML Engineer

АПТЕКИ ВАША № 1

Полный день
  • Москва

  • Не указана

OneTwoTrip
Удаленная работа
  • Москва

  • до 300000 RUR

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Lead Data Scientist (AI)

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день
  • Москва

  • до 300000 RUR

МАГНИТ, Розничная сеть

Senior NLP инженер

МАГНИТ, Розничная сеть

Удаленная работа
  • Москва

  • до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию