Middle\Senior Data Engineer (Muxlisa AI)

Ташкент, улица Муминова, 7/1

Описание вакансии

Вам предстоит проектировать и поддерживать конвейеры данных (data pipelines) для развития речевых технологий в Muxlisa AI. Ваша работа станет фундаментом для обучения моделей автоматического распознавания речи (ASR/STT), синтеза речи (TTS) и диаризации, обеспечивая их чистыми и качественными наборами данных.

Обязанности:

Организация захвата и загрузки аудиоданных из различных источников (колл-центры, студии записи TTS, внутренние ресурсы).
Сбор открытых датасетов с использованием Python, библиотек для веб-краулинга и кастомных парсеров.
Очистка и предобработка звука (ресемплинг, VAD — определение активности речи, удаление тишины, сегментация).
Формирование выверенных пар «аудио-текст» для обучающих, валидационных и тестовых выборок (train/dev/test).
Оптимизация структуры данных и потоков в MinIO/S3.
Сопровождение процессов разметки (экспорт/импорт данных, валидация).
Создание и поддержка ETL-процессов для специфики STT/TTS.
Подготовка и поставка данных для инженеров машинного обучения.

Требования:

Уверенное владение Python (pandas, numpy, librosa, soundfile, re, pydub).
Опыт работы в среде Linux/bash и навыки обработки больших объемов данных.
Понимание основ обработки аудиосигналов.
Опыт работы с объектными хранилищами (S3/MinIO).
Глубокое понимание принципов структурирования данных: умение сегментировать, категоризировать и размечать данные, проектировать четкие схемы и обеспечивать консистентность форматов.
Знание специфики форматов данных для STT/TTS.

Будет плюсом:

Знакомство с инструментами оркестрации ETL (Airflow, Luigi).
Опыт работы с датасетами для диаризации речи.

Условия:

График работы: 5 дней в неделю, с 09:00 до 18:00;
Оформление в соответствии с Трудовым кодексом РУз, предоставление 28 календарных дней отпуска;
Отсутствие строгого дресс-кода — мы стремимся разрушить стереотипы о государственных организациях;
Работа в сильной команде профессионалов, готовых делиться знаниями и опытом;
Участие в крупных и значимых проектах, направленных на создание сервисов для улучшения жизни населения и оптимизацию бизнес-процессов в ведущих предприятиях страны;
Широкие возможности для самостоятельных решений и активного влияния на развитие компании.

Мы ждем вас в нашей команде, чтобы вместе достигать новых высот!