Команда голосовых технологий создает онлайн и офлайн модели распознания голоса и извлечения признаков, синтеза и клонирования речи.
Используемый технологический стек:
- Исследование и обучение: PyTorch, PyTorch Lightning, NeMo
- Инференс: Triton Inference Server (ONNX, TensorRT)
ЧЕМ ВЫ БУДЕТЕ ЗАНИМАТЬСЯ:
- Собирать данные под домен, размечать данные;
- Файнтюнить компоненты пайплайна под термины домена;
- Развивать микросервисы инференса моделей;
- Подбирать лучшие практики сбора и предобработки датасетов (в т.ч. Nemo Forced Aligner);
- Разрабатывать модели поло-возрастной классификации.
МЫ ЖДЕМ, ЧТО ВЫ:
- Обладаете уверенными знаниями теории отрасли speech (сигналы, распознание, синтез, VAD, диаризация, фреймворки, токенизация);
- Пишете код на python с механиками асинхронизма для создания датасетов, pipeline;
- Занимались обучением ASR CTC/RNN-T Conformer, NeMo (в т.ч. метрики обучения, пре-процессинг/пост-процессинг, лоссы);
- Иметее опыт инференса Torch, ONNX, TensorRT, MultiGPU, pytorch-lightning;
- Обладаете знаниями в отрасли NLP (n-gram, TF-IDF, Transformers);
- Обладаете знаниями и опытом в отрасли синтеза речи.
ЧТО МЫ ПРЕДЛАГАЕМ:
- Достойный уровень вознаграждения;
- ДМС со стоматологией с первого месяца работы;
- Отпуск 33 дня;
- Полное соблюдение ТК РФ.