Компания развивает собственную платформу голосовых ботов. Сейчас для обзвонов и приема звонков используются внешние сервисы (Retell, ElevenLabs), но при наших объемах это дорого и не даёт достаточного контроля над задержкой и данными. Мы переносим распознавание, диалог и синтез речи на собственные GPU-серверы. Ищем инженера, который возьмет это направление и доведёт его от прототипа до промышленной эксплуатации.
Чем предстоит заниматься:
- Разрабатывать пайплайн голосового бота в реальном времени: звонок → распознавание речи → LLM → синтез речи.
- Обеспечивать естественный диалог: обработку пауз, возможность перебивания бота, минимальную задержку ответа.
- Разворачивать и оптимизировать open-source модели на GPU: распознавание (Whisper), синтез речи (TTS), открытые LLM для логики диалога.
- Интегрировать решение с телефонией на YATE: приём и передача аудиопотоков.
- Реализовать категоризацию входящих звонков и перевод на оператора.
Что мы ожидаем:
- Опыт коммерческой разработки на Python/Golang от 3 лет.
- Опыт запуска ML-моделей в продакшене на GPU и их оптимизации.
- Практический опыт работы с распознаванием или синтезом речи.
- Понимание принципов обработки аудио в реальном времени.
- Опыт работы с LLM: самостоятельное развёртывание или интеграция через API.
- Уверенное владение Docker.
Будет плюсом:
- Опыт создания голосовых ботов с полноценным диалогом (перебивания, управление репликами).
- Дообучение моделей под конкретный язык и предметную область.
- Знание VoIP/SIP и опыт работы с телефонией.
- Понимание архитектуры Retell, ElevenLabs, Vapi или LiveKit.
- Знание PHP (часть платформы реализована на них).
Условия:
- Работа в аккредитованной IT-компании.
- Конкурентная заработная плата, обсуждается индивидуально.
- Полная удалёнка или гибридный формат в Москве.
- Гибкий график 5/2 с началом рабочего дня с 8:00 до 10:00.
- Интересные задачи и возможность влиять на продукт.