Мы ищем сильного Senior Deep Learning инженера в команду, которая создает голосовой AI принципиально нового уровня.
Наша цель — построить low-latency диалогового агента, общение с которым будет максимально естественным и отличимым от разговора с живым человеком только в положительную сторону. Наш агент должен не просто отвечать на вопросы, а уметь использовать внешние инструменты (function calling), проявлять эмпатию, управлять просодией (делать паузы, менять интонацию, вздыхать) и уверенно работать в условиях сильного фонового шума.
Для быстрого старта у нас уже есть мощный фундамент — наша audio-conditioned модель GigaChat Audio и LLM-based синтез речи GigaTTS.
Теперь перед нами стоят инженерные и research-вызовы: нужно превратить эту базу в идеального стримингового собеседника. Предстоит научить модель органично реагировать на перебивания (barge-in), удерживать сложный многошаговый контекст, работать с потоковым аудио (streaming input/output) без потери качества и адаптироваться под специфичные бизнес-домены.
Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!
Обязанности
- Audio-conditioned & Speech2Speech LLMs: дообучение моделей для достижения естественного, эмпатичного и инструктивного ответа.
- Real-time Interaction: адаптация архитектуры под стриминговый ввод/вывод, решение проблемы перебиваний (barge-in) и минимизация задержки (latency / Time-to-First-Audio-Token).
- Data-centric AI & Evaluation: дизайн сложных, многомерных метрик качества и проектирование хитрых срезов для сбора данных под edge-кейсы.
- Research & Architecture: проведение экспериментов с новыми компонентами (энкодеры аудио, новые поколения LLM) и внедрение их в пайплайн.
- Domain Adaptation: адаптация базового агента под сложные сценарии, требующие удержания длинного контекста и вызова внешних API.
Требования
- Уверенное владение Python и PyTorch: написание чистого, модульного кода, понимание ООП, типизации, умение писать тесты.
- Distributed Training: уверенный практический опыт распределенного обучения больших моделей, понимание принципов работы под капотом (Data/Tensor/Context/Expert Parallelism).
- Глубокая экспертиза в Deep Learning: уверенный практический опыт обучения LLM и/или Audio Foundation моделей.
- Data & Evaluation: опыт построения пайплайнов оценки качества и сбора данных для генеративных моделей.
Условия
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.