Технический лидер команды GenAI (Tech Lead)

Москва, проспект Мира, 69

Метро: Проспект Мира

Описание вакансии

Мы делаем продукты и решения на базе LLM, которые применяют сотрудники и клиенты компании, смежные подразделения и системы. Уже созданы AI-ассистент брокера – Финс, BCS GPT – решения для работы сотрудников с LLM, ИИ шлюз для интеграции смежных систем к LLM.

Сейчас у нас в production работают десятки LLM-интеграций, мы обрабатываем тысячи запросов в день и находимся на стадии запуска нового направления.

Ищем Tech Lead, который возьмёт на себя архитектуру и delivery наших AI-продуктов — человека с сильным backend-фундаментом и доказанным опытом вывода LLM-решений в production. Того, кто умеет балансировать между research-гипотезами и реальностью: latency, стоимостью инференса и SLA.

Ключевые задачи – создание единой векторной базы знаний, выстраивание процесса непрерывного улучшения качества ответов LLM и производственного цикла для создания новых решений, включая фабрику AI-агентов.

Как мы работаем (инженерный mindset):

Не тащим LLM туда, где задача решается классическим ML или регулярными выражениями;
Ключевое для нас, чтобы новое решение с LLM приносило финансовый эффект и экономило компании деньги, заменяя устаревшие функции и процессы;
Считаем токены, latency и стоимость инференса — это такие же метрики продукта, как DAU и retention;
Не верим в оценку «кажется, стало лучше» — строим датасеты и eval-пайплайны для измеримого качества;
Стек: практически без ограничений, как open source, так и облачные LLM, включая зарубежных провайдеров.

Чем предстоит заниматься:

Проектирование и развитие архитектуры GenAI-решений от прототипа до production: выбор паттернов (prompt-based, RAG, агенты, fine-tuning) с явным учётом unit-экономики;
Построение надёжных LLM-пайплайнов: RAG (chunking, embeddings, reranking), управление контекстом, tool use / function calling;
Внедрение LLMOps-практик: observability, трассировка, offline/online evals, guardrails, A/B-тестирование качества;
Руководство командой из 10 сотрудников: декомпозиция, delivery, code и architecture review, инженерные стандарты, управление качеством;
Участие в найме;
Работа с продуктом и бизнесом: реализация бизнес-потребностей в виде технических решения с документированными компромиссами.

Наши ожидания:

Backend-разработка от 5 лет (Python, микросервисы, K8s, асинхронность, очереди) — не как формальный фильтр, а как базовая инженерная зрелость;
Минимум 2 года в AI/ML или GenAI с кейсами вывода в production: не PoC, не pet-проекты — реальные системы с SLA, мониторингом и обработкой инцидентов;
Глубокое понимание устройства LLM: ограничения, галлюцинации, context window management, structured output;
Практический опыт с векторными базами данных и оценкой качества retrieval (precision@k, nDCG, MRR);
Интеграция AI-компонентов в enterprise или B2B SaaS, включая работу с PII и compliance-требованиями.

Будет сильным плюсом:

Опыт проектирования multi-agent систем и workflow orchestration;
Self-hosted inference: vLLM, квантизация, оптимизация throughput;
Fine-tuning, LoRA, RLHF/DPO — хотя бы понимание когда это оправдано, а когда нет;
Опыт в регулируемых доменах (финтех, медицина, госуправление).

Мы предлагаем:

Стабильный конкурентный доход;
Гибридный режим работы: возможность работать удаленно (частично или полностью);
Работу в аккредитованной Минцифры России ИТ-компании, резиденте Сколково;
Работу в стабильной и активно развивающейся компании – лидере инвестиционного рынка;
Современный стек технологий, амбициозные проекты, возможность профессионального развития;
ДМС с первого месяца работы;
Оформление согласно ТК РФ;
Корпоративные скидки и предложения для сотрудников.