AI Engineer / LLM Engineer (Agent & RAG focus)

Москва

Метро: Библиотека им.Ленина

Описание вакансии

Мы ищем AI Engineer / LLM Engineer (Agent & RAG focus) —
инженера-практика, который умеет превращать наши концепции, сценарии и гипотезы в работающие агентные системы, доводить их до стабильного прототипа / MVP / пилота и масштабировать.

Это НЕ промпт-инженер, НЕ чистый ML-researcher,
НЕ бэкендер без понимания LLM,

а инженер агентных ИИ-систем, работающий на стыке:

LLM,
RAG,
мультиагентных сценариев,
API / backend,
метрик качества и продакшн-эксплуатации.

Инженер отвечает за реализацию и развитие агентных ИИ-решений, включая:

разработку AI-агентов (single и multi-agent),
построение RAG / GraphRAG контуров,
оркестрацию LLM + tools + данные,
интеграцию с бизнес-системами,
контроль качества и метрик,
снижение галлюцинаций и стоимости.

Основные задачи

Разработка агентных ИИ-систем

проектирование и реализация AI-агентов под бизнес-сценарии;
реализация ReAct / Plan-and-Execute / Reflection;
написание агентных пайплайнов (в т.ч. без фреймворков).

RAG / Knowledge Base

построение end-to-end RAG-пайплайнов;
работа с корпоративной документацией (PDF, DOCX, базы знаний);
embeddings, chunking, retrieval, reranking;
оптимизация качества и latency.

LLM orchestration

интеграция LLM API (OpenAI, Anthropic, LLaMA, Qwen и др.);
работа с tool calling, function calling, schema-guided prompting;
генерация артефактов (Markdown, UML, OpenAPI, JSON).

Backend и интеграции

разработка API (FastAPI);
интеграции с Jira / Confluence / Notion / БД;
работа с брокерами сообщений;
базовый DevOps (Docker, Linux).

Качество и метрики

определение метрик качества (precision, completeness, consistency);
анализ логов, A/B-тесты;
снижение галлюцинаций;
оптимизация стоимости и времени ответа.

Совместная работа с бизнесом

формализация процессов аналитиков и бизнеса в сценарии для агентов;
итеративное улучшение решений на основе фидбэка.

Обязательные требования (MUST)

Инженерные

Python — уверенный уровень (async, typing, API, пайплайны); Linux, Docker, Git.
опыт работы с LLM API от 1,5–2 лет (LLM API + агентные пайплайны (ReAct / Plan&Execute / Reflection)
опыт разработки AI-агентов (не только чат-ботов);
понимание внутренней логики LLM и reasoning-подходов;
опыт end-to-end RAG RAG (chunking → embeddings → vector DB → retrieval/rerank → ответы)
FastAPI;
Векторные БД (Qdrant/pgvector/Weaviate/FAISS)

LLM / Agents

ReAct, CoT, ToT, Reflection;
prompt chaining, system prompts, few-shot;
tool calling / structured outputs.

Данные

векторные БД (Qdrant / Weaviate / pgvector / FAISS);
embeddings (OpenAI / HF).
LangChain/LangGraph/LlamaIndex; MCP; vLLM/локальный инференс; GraphRAG; брокеры сообщений.
опыт работы с Jira / Confluence;
user stories/use cases, BPMN/UML, REST, SQL).
Streamlit / Gradio для демо;
MLOps / CI-CD.

Плюсом
Понимание процессов SA
Формат
Участие во всём цикле R&D: гипотезы → прототип → метрики → решение kill/iterate/scale.
Ожидаем самостоятельность и ориентацию на результат.

❌ Кого мы не ищем:

чистого prompt-инженера без разработки;
ML-researcher’а без продакшн-мышления;
backend-разработчика без понимания LLM;
специалиста «поиграться с ChatGPT».

Что будете делать

Разрабатывать AI-агентов (single/multi-agent), оркестрация tools + LLM.
Строить RAG/KB по корпоративной документации (PDF/DOCX/Confluence/Notion).
Интегрировать с Jira/YouTrack, Confluence/Notion, базами данных и внешними API.
Делать сервисы на Python (FastAPI): вебхуки, API, панели/эндпойнты.
Вести качество: метрики, логи, A/B, снижение галлюцинаций, оптимизация cost/latency.
Работать с аналитиками: описывать процессы → превращать в сценарии агента.