Мы ищем опытного DS-специалиста в области Speech AI, который усилит нашу команду на стыке продукта и технологий. На старте фокус будет на быстрой проверке продуктовых гипотез с использованием готовых вендорских решений, но в ближайшей перспективе роль предполагает переход к работе с open source моделями, их дообучению и оптимизации под наши задачи
Чем предстоит заниматься
- Проведение экспериментов и проверка продуктовых гипотез для улучшения пользовательского опыта в голосовых каналах
- Внедрение, донастройка и сравнительный анализ вендорских решений ASR и TTS (облачные и on-premise)
- Исследование и прототипирование решений на базе open-source моделей
- Создание и оптимизация end-to-end пайплайнов для голосовых роботов (ASR + LLM + TTS)
- Формирование требований к датасетам для дообучения моделей под специфику бизнеса
Что для этого нужно
- Опыт коммерческой разработки в Data Science от 3-х лет, специализация на Speech AI (ASR/TTS) - не менее 2-х лет
- Уверенное владение PyTorch и желателен опыт дообучения (fine-tuning) моделей под специфические домены и языки
- Глубокое понимание архитектур современных моделей Speech-to-Text и Text-to-Speech и методов оценки качества
- Опыт создания полноценных пайплайнов на базе open source стека
- Навыки проведения экспериментов и оценки влияния ML-метрик на продуктовые показатели
Будет плюсом
- Практический опыт построения RAG-систем и интеграции LLM в голосовые пайплайны
- Навыки работы с задачами VAD, Speaker Diarization, Audio Enhancement
- Понимание специфики потоковой обработки звука (Streaming) и методов снижения latency
- Понимание влияния сетевых факторов (SIP, джиттер, кодеки) на качество распознавания речи
- Навыки в MLOps: Docker, Kubernetes, мониторинг качества моделей в продакшене
Трудоустройство в аккредитованную ИТ-компанию ООО «МегаТех»