Ташкент, улица Муминова, 7/1
Вам предстоит проектировать и поддерживать конвейеры данных (data pipelines) для развития речевых технологий в Muxlisa AI. Ваша работа станет фундаментом для обучения моделей автоматического распознавания речи (ASR/STT), синтеза речи (TTS) и диаризации, обеспечивая их чистыми и качественными наборами данных.
Обязанности:
Организация захвата и загрузки аудиоданных из различных источников (колл-центры, студии записи TTS, внутренние ресурсы).
Сбор открытых датасетов с использованием Python, библиотек для веб-краулинга и кастомных парсеров.
Очистка и предобработка звука (ресемплинг, VAD — определение активности речи, удаление тишины, сегментация).
Формирование выверенных пар «аудио-текст» для обучающих, валидационных и тестовых выборок (train/dev/test).
Оптимизация структуры данных и потоков в MinIO/S3.
Сопровождение процессов разметки (экспорт/импорт данных, валидация).
Создание и поддержка ETL-процессов для специфики STT/TTS.
Подготовка и поставка данных для инженеров машинного обучения.
Уверенное владение Python (pandas, numpy, librosa, soundfile, re, pydub).
Опыт работы в среде Linux/bash и навыки обработки больших объемов данных.
Понимание основ обработки аудиосигналов.
Опыт работы с объектными хранилищами (S3/MinIO).
Глубокое понимание принципов структурирования данных: умение сегментировать, категоризировать и размечать данные, проектировать четкие схемы и обеспечивать консистентность форматов.
Знание специфики форматов данных для STT/TTS.
Будет плюсом:
Знакомство с инструментами оркестрации ETL (Airflow, Luigi).
Опыт работы с датасетами для диаризации речи.
Условия:
TARGET-INTERNATIONAL SCHOOL
Ташкент
до 15000000 UZS
Национальный комитет Республики Узбекистан по статистике
Ташкент
до 15000000 UZS