Разрабатываем и внедряем передовые методы мультимодальной генерации. Используются следующие модальности – на входе изображения/текст/звук/видео, на выходе – видео/звук. Фокус — разработка новых архитектур, обучение больших моделей(десятки/сотни миллиардов параметров), оптимизация и удешевление инференса.
Обязанности
- исследование и разработка новых методов мультимодальной генерации (исследование существующих архитектур и разработка новых)
- исследование и разработка методов генерации image to video, first-last frame to video, video continuation
- оптимизация пайплайна обучения и инференса – сбор датасета, разработка архитектуры модели, обучение, оценка, оптимизация скорости инференса и стоимости генерации
- исследование и разработка методов генерации text(image) to video+audio, Оптимизация пайплайна обучения и инференса – сбор датасета, разработка архитектуры модели, обучение, оценка, оптимизация сокрости инференса и стоимости генерации
- совместная работа с командами опенсорса и продуктовой в целях стабильного и быстрого инференса моделей в разных средах и на разных поверхностях – GigaChat/ComfyUI/diffusers etc
- техническое описание разработанных решений – статьи, документирование,
Требования
- экспертный уровень Python, PyTorch
- опыт разработки моделей аудио/видеогенераци.
- глубокое понимание методов обучения/распределенного обучения
- понимание архитектур современных LLM и Diffusion-моделей
- опыт работы с диффузионными моделями.
Бонус: Опыт в классических задачах аудио/видео обработки. Цифровая обработка сигналов/компрессия/шумоподавление.
Условия
- комфортный современный офис (м. Кутузовская)
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- реферальная программа: вознаграждение за рекомендацию друзей в команду Сбера