Мы ищем опытного инженера в команду ReCrea.ai — мобильного приложения для генерации фото и видео. Наш бэкенд — это сложная система оркестрации AI-задач, которая управляет обучением LoRA-моделей, генерацией контента через RunPod/Replicate/Fal.ai и обработкой медиа в реальном времени.
Тебе предстоит работать с кодом, который напрямую взаимодействует с GPU-кластерами, обрабатывает тысячи асинхронных колбэков и обеспечивает надежность финансовых транзакций при сбоях генерации.
🛠 Технологический стек
Core:
- Python 3.12 (Asyncio, Pydantic v2, Type hints).
- FastAPI + Uvicorn + Gunicorn (Custom workers).
- PostgreSQL + SQLAlchemy 2.0 (Async, JSONB, сложные транзакции).
- Redis (Кэширование, Pub/Sub для вебсокетов, атомарные счетчики).
AI & Generation Pipeline:
- Orchestration: Управление долгими задачами (Training, Inference) на RunPod, Replicate, Fal.ai.
- LLM Integration: Глубокая интеграция с Google Gemini API, OpenRouter (Vision, Chat, Structured Outputs) для улучшения промтов и анализа изображений
- Media Processing: Pillow, FFmpeg, OpenCV (обработка, конвертация, upscale).
Infrastructure & Observability:
- Blue-Green Deployment (Nginx, Docker Compose).
- Monitoring: Grafana, Loki, Prometheus, Structlog (JSON logs), OpenTelemetry.
- Storage: S3 (Yandex/DigitalOcean)
🎯 Ключевые задачи
1. Оркестрация AI-процессов (Core Logic):
- Развитие сервисов `ModelService` и `PhotoService`: управление жизненным циклом обучения моделей (LoRA) и генерации изображений.
- Реализация надежных механизмов Retry и Fallback для внешних GPU-провайдеров (RunPod, Fal.ai).
- Обработка сложных сценариев Race Conditions в асинхронных вебхуках (например, при параллельном апскейле изображений).
2. Стабилизация и оптимизация:
- Устранение утечек соединений с БД (Connection Leaks) в высоконагруженных асинхронных воркерах.
- Оптимизация работы с S3 и сетью: параллельная загрузка, обработка таймаутов, работа с большими файлами.
- Улучшение системы возврата средств (Refunds) при сбоях генерации (гарантия консистентности баланса пользователя).
3. Развитие продукта:
- Интеграция новых ИИ моделей и пайплайнов (Image-to-Video, Text-to-Video).
- Разработка фичей на базе LLM: автоматическое улучшение промтов, генерация описаний, чат-боты.
- Поддержка системы подписок и рекуррентных платежей (Tinkoff, Stripe, RevenueCat).
📋 Требования
- Python Expert: Глубокое понимание `asyncio`, работы с Event Loop, конкурентности и многопоточности.
- Database: Опыт работы с PostgreSQL на уровне оптимизации запросов, понимание уровней изоляции транзакций и блокировок (для предотвращения Race Conditions).
- Architecture: Умение проектировать отказоустойчивые распределенные системы (обработка сбоев, идемпотентность, очереди задач).
- Debugging: Навык расследования сложных багов в распределенной системе с помощью логов (Loki) и трейсов.
🤝 Будет плюсом
- Опыт работы с Generative AI (Stable Diffusion, ComfyUI, LLM).
- Понимание принципов работы GPU-облаков (RunPod, Lambda).
- Опыт работы с вебсокетами (реализация прогресс-баров и уведомлений).
🚀 Почему это круто
- Real AI Product: Ты будешь работать с технологиями, которые меняют индустрию прямо сейчас (Flux, Google, Gemini, Sora).
- High Impact: Ваш код будет напрямую влиять на качество генерации и опыт тысяч пользователей.
- Modern Stack: Мы используем последние версии библиотек и инструментов, не боимся экспериментировать и внедрять новое.