Мы core команда, которая отвечает за машинное обучение для понимания аудиоданных во всем Сбере. В прошлом году мы выложили в открытый доступ SOTA модель для распознавания речи на русском языке GigaAM (https://arxiv.org/abs/2506.01192), а этой весной первыми в России запустили нативное понимание звука в LLM: GigaChat Audio (https://habr.com/ru/companies/sberdevices/articles/904894/). Сейчас мы активно работаем над улучшением мультимодальных свойств GigaChat: рост качества на сложных контекстах из аудио и картинок; понимание видео не только по звуковому потоку, но и кадрам.
Обязанности
- создание пайплайна генерации синтетических Audio+Vision+Text данных из внутренних и открытых моделей
- создание бенчмарков: llm-as-a-judge, авто-метрики
- проведение экспериментов по обучению LLM: тестирование данных и стадий обучения, методы смешивания модальностей
Требования
- python: модульный код, ООП, concurrency, pep, тесты
- понимание этапов обучения и современных архитектур LLM
- понимание методов оценки качества ML-систем
- глубокие теоретические знания в DL
- опыт отладки/обучения в multi-gpu режиме
Будет плюсом
- опыт в Computer Vision / Audio
Условия
- комфортный современный офис рядом с м. Кутузовская
- возможность выбрать удобный график – офис/гибрид (офисы Москва / Санкт-Петербург)
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.