Voice AI-инженер (Speech / ML)

Москва

Метро: Библиотека им.Ленина

Описание вакансии

Компания развивает собственную платформу голосовых ботов. Сейчас для обзвонов и приема звонков используются внешние сервисы (Retell, ElevenLabs), но при наших объемах это дорого и не даёт достаточного контроля над задержкой и данными. Мы переносим распознавание, диалог и синтез речи на собственные GPU-серверы. Ищем инженера, который возьмет это направление и доведёт его от прототипа до промышленной эксплуатации.

Чем предстоит заниматься:

Разрабатывать пайплайн голосового бота в реальном времени: звонок → распознавание речи → LLM → синтез речи.
Обеспечивать естественный диалог: обработку пауз, возможность перебивания бота, минимальную задержку ответа.
Разворачивать и оптимизировать open-source модели на GPU: распознавание (Whisper), синтез речи (TTS), открытые LLM для логики диалога.
Интегрировать решение с телефонией на YATE: приём и передача аудиопотоков.
Реализовать категоризацию входящих звонков и перевод на оператора.

Что мы ожидаем:

Опыт коммерческой разработки на Python/Golang от 3 лет.
Опыт запуска ML-моделей в продакшене на GPU и их оптимизации.
Практический опыт работы с распознаванием или синтезом речи.
Понимание принципов обработки аудио в реальном времени.
Опыт работы с LLM: самостоятельное развёртывание или интеграция через API.
Уверенное владение Docker.

Будет плюсом:

Опыт создания голосовых ботов с полноценным диалогом (перебивания, управление репликами).
Дообучение моделей под конкретный язык и предметную область.
Знание VoIP/SIP и опыт работы с телефонией.
Понимание архитектуры Retell, ElevenLabs, Vapi или LiveKit.
Знание PHP (часть платформы реализована на них).

Условия: