Команда TagMe занимается созданием платформы подготовки данных данных для обучения флагманских продуктов Sber: мультимодальных моделей GigaChat (LLM), Kandinsky (генерация изображений), OCR (распознавание текста) и новейших VLM (визуально-лингвистические модели), AI-агентов построенных на нашем стеке.
Мы ищем ML-инженера, который будет не только работать с данными, но и напрямую развивать и оптимизировать процессы на нашей внутренней платформе разметки TagMe. Ваша работа станет критически важным звеном в создании данных для всего спектра наших моделей — от базовых Core-моделей до кастомных решений для B2C-продуктов, внутренних задач Сбера и корпоративных заказчиков
Обязанности
- разработка и оптимизация пайплайнов разметки на платформе TagMe: создание и настройка проектов для сбора и контроля качества данных для LLM и AI-агентов.
- работа с данными для обучения моделей: полный цикл — от предобработки и фильтрации (с использованием embedding'ов, методов активного обучения) до сегментации и аугментации данных.
- проектирование архитектуры данных: выстраивание эффективных процессов сбора, хранения (S3, PostgreSQL, YT) и версионирования (DVC) больших объемов размеченных данных.
- контроль качества разметки: разработка метрик и алгоритмов для оценки согласованности данных, работы с краудсорсерами и асессорами.
- участие в принятии архитектурных решений и развитие технической документации по процессам разметки.
Требования
- высокий уровень владения Python (понимание алгоритмов, структур данных, многопоточности (GIL), async).
- глубокое знание SQL и опыт оптимизации сложных запросов.
- базовые знания математической статистики и теории вероятностей.
Будет преимуществом:
- опыт работы с краудсорсингом или аутсорс-платформами (например, Toloka, Yandex.Toloka, Label Studio).
- понимание подходов к оценке качества данных и метрик для LLM, NLP и компьютерного зрения.
- опыт работы над улучшением качества generative AI моделей через улучшение данных.
- высокий рейтинг на Codeforces или аналогичных платформах.
- понимание основ машинного обучения и специфики работы мультимодальных моделей.
Условия
- комфортный современный офис - м. Кутузовская (гибрид из Москвы, м. Кутузовская СберСити)
- ежегодный пересмотр зарплаты, годовой бонус
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа.