Lead AI Voice / MLOps Engineer (Streaming Audio / vLLM)
Мы — DeepTech стартап. Мы строим собственный in-house конвейер потокового голосового ИИ (ASR ➔ LLM ➔ TTS) сверхнизкой задержки на Nvidia GPU-кластерах.
Мы не делаем очередную «обертку» над OpenAI API или Vapi. Мы создаем свой проприетарный движок. Днем наша система обслуживает реальный сектор SMB (AI-администраторы по SIP-телефонии для малого бизнеса), а ночью интегрируется в качестве бэкенда для умных голосовых NPC в крупнейшие игровые проекты ( пиковый онлайн 14,000+).
Инфраструктуру со стороны DevOps, K8s и автомасштабирования нам помогает выстраивать и валидировать действующий архитектор из Apple. Нам нужен человек, который заберет на себя сердце продукта — ML-пайплайн и задержки.
Главный технический вызов (Твой KPI): Time-to-First-Audio (TTFA) в реальном диалоге с ботом должен составлять строго менее 1000 миллисекунд.
Что нужно будет делать:
Развернуть и оптимизировать streaming-пайплайн на GPU (A6000/A100/H100).
Слух (ASR): Настроить потоковый Speech-to-Text (Faster-Whisper / Deepgram on-prem).
Мозг (LLM): Развернуть Llama 3 (8B) или аналоги через vLLM / TensorRT с минимальным Time-to-First-Token.
Голос (TTS): Внедрить быстрый потоковый синтез речи (XTTSv2, OpenVoice или аналоги).
Оркестрация: Написать жесткую логику VAD (Voice Activity Detection). Бот должен моментально замолкать при перебивании, но при этом не должно быть пауз в 2 секунды между репликами.
Упаковать всё это в production-ready Docker-контейнеры и отдать нам быстрый локальный API.
Наш идеальный кандидат:
Уверенно пишет на Python (C++ будет жирным плюсом для оптимизаций).
Понимает, как на низком уровне работает память видеокарт (VRAM, CUDA, TensorRT).
Имеет реальный опыт работы с vLLM / llama.cpp в продакшене.
Понимает основы телефонии и стриминга (WebRTC, SIP, Websockets).
Не боится слова "оптимизация" и умеет считать миллисекунды в логах.
Самостоятелен: вам не нужен микроменеджмент, вы берете задачу и приносите работающий "черный ящик".
Условия:
Оплата: в USD или крипте (USDT), если вы находитесь вне РФ, либо обсуждаем удобные варианты.
Полная удаленка, асинхронный формат работы (команда в часовом поясе Калифорнии / PST, но мы не заставляем сидеть на ночных созвонах).
Нулевая бюрократия. Никаких Jira-билетов ради билетов — работаем спринтами в Linear на результат.
Доступ к топовым GPU-мощностям для любых тестов.
В сопроводительном письме указывайте тех стэк, опыт работы.
Москва
Не указана
Гришина Евгения Сергеевна
Москва
Не указана
Боташев Шахарби Джамалович
Москва
Не указана
Москва
до 350000 RUR
Москва
до 350000 RUR
Артэникс
Москва
до 350000 RUR