О проекте:
Ищем AI/ML-специалиста в команду для создания системы генерации видео на основе текста и изображений.
Проект реализуется с фокусом на создание технологичных решений в сфере генеративных медиа.
Наша цель — построить end-to-end решение: от текстового сценария и аватара до озвучки и реалистичного talking-head видео с мимикой.
Что предстоит делать:
- Генерация реалистичного видео по текстовому сценарию (с использованием изображений/аватаров);
- Синтез аудио из текста (TTS + voice cloning);
- Синхронизация губ и мимики с аудио;
- Построение интегрированных пайплайнов для генерации и сборки видео;
Требования:
- Опыт работы с diffusion-моделями, talking-head генерацией, TTS;
- Отличное знание Python, PyTorch, OpenCV, ffmpeg;
- Понимание архитектур GAN / Transformer / VAE;
- Навыки создания end-to-end ML-пайплайнов и продуктовых интеграций.
Будет плюсом:
- Опыт работы с Wav2Lip, SadTalker, Bark, Whisper, Stable Diffusion;
- Наличие портфолио или демо-проектов в области генерации видео / deepfake;
- Опыт в оптимизации inference и real-time генерации.
Что мы предлагаем:
- Задачи на стыке науки и продакшена — работа не в ресёрч в вакууме, а с прицелом на применение;
- Фокус на технологии, а не бюрократию — ты пишешь код, который идёт в продукт;
- Доступ к ресурсам и вычислительным мощностям (GPU, облака, inference-инфраструктура);
- Фулл-ремоут;
- Прозрачная мотивация + бонусы за результат;
- Возможность роста: технический лидер, архитектор или даже запуск собственного ML-направления.