MWS AI — это часть экосистемы МТС Web Services, где создаются AI-решения будущего.
Мы разрабатываем передовые системы голосового перевода (voice-to-voice translation), способные мгновенно преобразовывать речь с одного языка в речь на другом — без утраты интонации, темпа и естественности. Наряду с этим, наши голосовые ассистенты и чат-боты отвечают на запросы клиентов. Объединяя сильнейших разработчиков, суперкомпьютерную инфраструктуру и прорывные исследования, мы делаем коммуникацию между людьми и бизнесом свободной от языковых барьеров.
Чем предстоит заниматься:
- Проводить исследования в области voice-to-voice translation, speech representation learning, multilingual TTS/ASR и языковой инвариантности голоса
- Разрабатывать и оптимизировать архитектуры моделей, способных сохранять говорящего, интонацию и стилистику речи при переводе
- Проектировать и реализовывать real-time streaming pipelines для голосового перевода с поддержкой chunked/streaming inference
- Проводить масштабные эксперименты, оценивать качество моделей по объективным и субъективным метрикам (например, MOS), и подавать результаты на ведущие конференции (Interspeech, NeurIPS, ACL, ICML, ICLR и др.)
- Работать в тесной связке с другими командами MWS AI
Что мы ожидаем от кандидата:
- Глубокое понимание методов глубокого обучения, особенно в контексте обработки речи (ASR, TTS, VC, speech translation)
- Опыт работы с нейросетевыми архитектурами для речи: Conformer, FastSpeech, Whisper, MAVE и др.
- Опыт работы с аудиоданными: форматы, препроцессинг, выравнивание, аугментация
- Опыт проектирования low-latency inference pipelines: streaming input/output, chunked processing, dynamic batching, memory pooling
- Готовность заниматься high-risk, high-impact исследованиями, где отсутствуют готовые решения и бенчмарки
- Желание публиковать научные работы и вносить вклад в развитие продуктов компании
- Хорошее знание английского языка (устная и письменная речь) на уровне не ниже B2
Преимуществом будут:
- Опыт работы с многоязычными аудио-датасетами, особенно с русским языком
- Знание инструментов для обработки и анализа речи: librosa, torchaudio, ESPnet, speechbrain, fairseq
- Опыт в оптимизации инференса моделей
- Публикации на топ-конференциях по речевым технологиям и ИИ (Interspeech, NeurIPS, ACL, EMNLP, ICLR и др.)
- Участие в open-source проектах, связанных с речью
Что мы предлагаем: