Machine Learning Engineer (Middle+/Strong Middle) — Voice AI / TTS / ASR

Бишкек, улица Горького, 1/2

Описание вакансии

Machine Learning Engineer (Middle+/Strong Middle) — Voice AI / TTS / ASR

Мы ищем ML-инженера с сильной базой в классическом машинном обучении и практическим опытом в Voice AI. Роль предполагает активное участие в развитии и поддержке speech-направления (TTS, ASR, text normalization), а также решение прикладных ML-задач в продукте. Важно умение доводить решения до production и поддерживать преемственность voice-стека.

Основные задачи

- Развитие и сопровождение TTS/ASR-решений в production и pre-production контурах.

- Подготовка и валидация речевых и текстовых датасетов: сбор, очистка, сегментация, проверка, препроцессинг, контроль качества.

- Участие в обучении, дообучении, оценке и сравнении speech-моделей.

- Работа с text normalization, ударениями, SSML, фонемизацией, метазвуками и другими речевыми preprocessing/postprocessing блоками.

- Анализ качества синтезированной и распознанной речи, проведение приемок моделей, подготовка структурированного фидбека.

- Поддержка билингвальных сценариев, в том числе на стыке русского и кыргызского языков.

- Интеграция speech-компонентов с backend и смежными платформами.

- Подключение к задачам классического ML вне voice-направления при необходимости команды.

Must have

- Практический опыт в Machine Learning / Data Science / MLE от 3 лет или эквивалентный сильный production-опыт.

- Обязательная сильная база по классическому ML: classification, regression, ranking, работа с табличными данными и корректная постановка ML-экспериментов.

- Уверенное владение Python и SQL.

- Хорошее понимание Deep Learning и уверенная работа с PyTorch.

- Практический опыт в одном или нескольких направлениях: TTS, ASR, speech preprocessing, audio ML, NLP для речевых задач.

- Опыт подготовки датасетов для speech-задач и понимание, как качество данных влияет на итоговую модель.

- Понимание ключевых voice-метрик и подходов к оценке качества: WER/CER, MOS-подобные оценки, экспертная приемка, error analysis.

- Понимание производственного цикла ML-моделей: train, validation, inference, deployment, monitoring.

- Опыт работы с Linux, Docker, Git и базовыми инженерными практиками.

- Умение самостоятельно разбираться в сложном ML/DL пайплайне и работать в плотной связке с командой.

Будет плюсом

- Опыт с TTS-архитектурами и современными speech-подходами: VITS/VITS2, F5, FastSpeech, Tacotron, XTTS, neural vocoders и аналогичные решения.

- Опыт с ASR-стеком: CTC/Transducer/attention-based подходы, Whisper/Conformer-подобные модели и связанные пайплайны.

- Практический опыт с text normalization, G2P/phonemization, SSML, prosody control, ударениями, интержекциями и метазвуками.

- Опыт работы с билингвальными или low-resource языками.

- Опыт взаимодействия с внешними вендорами, приемки моделей и итеративного улучшения качества по обратной связи.

- Знакомство с LLM и голосовыми ассистентами на стыке ASR + TTS + dialogue/LLM orchestration.

- Опыт решения смежных классических ML-задач вне voice-домена.

Какой профиль нам подойдет

- Strong Middle / Middle+ инженер, который умеет сочетать хорошую DL-подготовку с практической инженерией и вниманием к качеству данных.

- Человек, который не ограничивается только исследованием модели, а умеет разбираться в полном speech-пайплайне вокруг нее.

- Инженер, способный стать опорным участником voice-направления и при этом уверенно брать классические ML-задачи команды.

Условия работы с нами:

Работу среди профессионалов,готовых делиться своим опытом;
Возможность карьерного роста и профессионального развития;
Обучение, курсы повышения квалификации по своему направлению;
Выгодные % ставки по ипотечному кредитованию;
Медицинская страховка для вас и вашей семьи;
Офис в инновационном офисе Технопарк (Горького/Алматинская), оформление согласно ТК КР;
Заработная плата обсуждается при собеседовании;
График работы 5/2, работа в офисе (удаленного формата нет).

Посмотреть контакты работодателя