Мы в поисках специалиста, который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.
Будущие задачи:
Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)
Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.
Обработка аудиоданных: препроцессинг, очистка, аугментации
Оптимизация latency, обеспечение real-time inference
Интеграция моделей в сервисы (API, gRPC, FastAPI)
Мониторинг качества (WER, MOS и др.), A/B тестирование
Обучение/Дообучение Моделей на данных
Требования:
Опыт работы с задачами ASR и/или TTS в ML-продуктах
Уверенное знание Python, PyTorch / TensorFlow
Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)
Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.
Навыки оптимизации inference (ONNX, quantization, streaming)
Понимание задач real-time распознавания
Опыт от 2-3 года в ML или DS проектах с голосом
Будет плюсом:
Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)
Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)
Работа с облачными STT/TTS API и кастомизация поверх них
Национальный межбанковский процессинговый центр
Ташкент
Не указана
ГУ O‘ZBEKISTON RESPUBLIKASI MAKTABGACHA VA MAKTAB TA'LIMI VAZIRLIGI
Ташкент
от 3000 USD
РПИ УзИнжиниринг
Ташкент
от 10000000 UZS
Sigma Sweden Software AB
Ташкент
от 10000000 UZS