Senior Deep Learning Engineer (Real-time Voice Agent)

Описание вакансии

Мы ищем сильного Senior Deep Learning инженера в команду, которая создает голосовой AI принципиально нового уровня.

Наша цель — построить low-latency диалогового агента, общение с которым будет максимально естественным и отличимым от разговора с живым человеком только в положительную сторону. Наш агент должен не просто отвечать на вопросы, а уметь использовать внешние инструменты (function calling), проявлять эмпатию, управлять просодией (делать паузы, менять интонацию, вздыхать) и уверенно работать в условиях сильного фонового шума.

Для быстрого старта у нас уже есть мощный фундамент — наша audio-conditioned модель GigaChat Audio и LLM-based синтез речи GigaTTS.

Теперь перед нами стоят инженерные и research-вызовы: нужно превратить эту базу в идеального стримингового собеседника. Предстоит научить модель органично реагировать на перебивания (barge-in), удерживать сложный многошаговый контекст, работать с потоковым аудио (streaming input/output) без потери качества и адаптироваться под специфичные бизнес-домены.

Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!

Обязанности

Audio-conditioned & Speech2Speech LLMs: дообучение моделей для достижения естественного, эмпатичного и инструктивного ответа.
Real-time Interaction: адаптация архитектуры под стриминговый ввод/вывод, решение проблемы перебиваний (barge-in) и минимизация задержки (latency / Time-to-First-Audio-Token).
Data-centric AI & Evaluation: дизайн сложных, многомерных метрик качества и проектирование хитрых срезов для сбора данных под edge-кейсы.
Research & Architecture: проведение экспериментов с новыми компонентами (энкодеры аудио, новые поколения LLM) и внедрение их в пайплайн.
Domain Adaptation: адаптация базового агента под сложные сценарии, требующие удержания длинного контекста и вызова внешних API.

Требования

Уверенное владение Python и PyTorch: написание чистого, модульного кода, понимание ООП, типизации, умение писать тесты.
Distributed Training: уверенный практический опыт распределенного обучения больших моделей, понимание принципов работы под капотом (Data/Tensor/Context/Expert Parallelism).
Глубокая экспертиза в Deep Learning: уверенный практический опыт обучения LLM и/или Audio Foundation моделей.
Data & Evaluation: опыт построения пайплайнов оценки качества и сбора данных для генеративных моделей.

Условия

крупнейшее DS&AI community — более 600 DS-специалистов банка
дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
возможность быть соавтором НИРов и статей для международных конференций
возможность выбрать удобный формат работы: гибрид или офис
ежегодный пересмотр зарплаты, годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
ипотека выгоднее до 7% для каждого сотрудника
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.