Разработка production NLP/LLM-решений: поиск, классификация, извлечение, суммаризация, Q&A/ассистенты.
Проектирование агентских и неагентских LLM-пайплайнов: tool/function calling, маршрутизация, контракты инструментов, обработка ошибок, управление контекстом/состоянием.
Реализация knowledge Q&A / RAG: подготовка данных, индекс/поиск, эмбеддинги, reranking, grounding/цитирование, контроль качества.
Интеграция в корпоративную среду: сервисы и API, внутренние API/БД, очереди/воркеры, фоновые задачи.
Эксплуатация и улучшение: логи/метрики/трейсы, диагностика, регрессии качества/производительности.
Опционально: адаптация под домен (PEFT/LoRA/QLoRA) с оценкой
Требования:
Образование: высшее техническое / ИТ.
Опыт: 3–5 лет разработки и поддержки production-сервисов в области NLP/LLM.
LLM в проде: понимание токенизации/контекста и ограничений, типовых failure-modes; понимание, когда уместна адаптация модели (PEFT/LoRA/QLoRA) и как оценивать влияние на качество/производительность.
RAG / knowledge Q&A: практический опыт построения решений на базе корпоративных данных: эмбеддинги, retrieval (векторный/гибридный), reranking, grounding/цитирование, контроль качества.
Инструменты LLM: HuggingFace + LangChain/LlamaIndex (или аналоги); опыт построения agentic/non-agentic пайплайнов с tool/function calling (контракты инструментов, устойчивость вызовов).
Backend и интеграции: сильный Python; сервисы и API (FastAPI или аналоги), очереди/воркеры/фоновые задачи, интеграции с внутренними системами; тесты и сопровождение.
Production/observability: логи/метрики/трейсы (Grafana/Prometheus или аналоги), диагностика инцидентов и деградаций качества/производительности.
Инфраструктура: Linux/CLI; Kubernetes на уровне чтения манифестов/логов и участия в диагностике.
Будет Плюсом:
Langfuse или аналоги (on-prem): трассировка/метрики/eval.
LiteLLM или аналоги: gateway/router, маршрутизация, лимиты.
OpenWebUI или аналоги: интеграция с retrieval/RAG и логированием.