Создаем веб-платформу, где пользователи могут создавать, настраивать и запускать свои решения на базе GenAI. Тебя ждут участие в проектировании серверной архитектуры и реализация ключевых сервисов: от API и очередей до интеграций с LLM и векторными БД.
Бэкенд и архитектура:
Участие в выборе технологического стека и проектировании масштабируемой серверной архитектуры (сервисы, слои, границы контекстов)
Проектирование и реализация основных API (REST/gRPC), real-time (WebSocket/SSE)
Проработка модели данных и схемы хранения (Mongo, PostgreSQL), очередей/стримов.
Закладывать безопасность: аутентификация и авторизация (OAuth2/OIDC, JWT), RBAC/ABAC, rate limiting, audit
GenAI-функциональность:
Интеграции с провайдерами LLM (OpenAI/Anthropic/Yandex/Sber): чат, функции-вызовы, стриминг токенов
RAG-пайплайн: загрузка и нарезка документов, эмбеддинги, векторный поиск (Qdrant), перегруппировка результатов
Оркестрация промпов, бюджетирование, логирование и наблюдаемость качества ответов
Качество и надежность:
Покрытие кода тестами (unit/integration)
Оптимизация производительности
Поддержка наблюдаемости
4+ лет коммерческой разработки на Python, 2+ года с FastAPI и asyncio.
Уверенное владение Pydantic, SQLAlchemy.
Опыт проектирования и реализация серверных API (REST/gRPC), real-time (WebSocket/SSE).
Отличное знание SQL/реляционных БД (PostgreSQL) и NoSQL (Mongo, Redis).
Опыт работы с очередями/стримами и асинхронной обработкой задач.
Практика интеграции внешних API.
Тестирование (unit/integration), базовые навыки нагрузочного тестирования.
Docker, базовые навыки Kubernetes; настройка CI/CD.
Понимание принципов безопасности, устойчивости и наблюдаемости в проде.
Опыт построения RAG-систем, знание LangChain/LlamaIndex или аналогов.
Работа с векторными БД (qdrant, pgvector, Pinecone) и эмбеддинг-моделями.
Опыт со streaming inference (vLLM, ollama), очередями задач (Celery/Temporal)