AI/Prompt Engineer в AiLab

Описание вакансии

Компания BSS — системно значимая российская ИТ-компания, специализирующаяся на разработке, внедрении и поддержке решений по цифровизации клиентского обслуживания для банков, финтех-компаний, госсектора, телекома, ритейла, медицины, сферы ЖКХ в России и СНГ. Мы разрабатываем системы речевой аналитики, развиваем платформы дистанционного банковского обслуживания, а также оказываем услуги по заказной и аутсорс разработке. Мы практикуем наиболее востребованные рынком технологические решения: от машинного обучения до разработки 1С.

Обязанности:

Прототипировать, тестировать и управлять качеством решений на базе LLM;
Настраивать поведение моделей (без fine-tuning) — экспериментировать с промптами (CoT, Tree-of-thoughts, few-shot, structured outputs, tool calling, etc), контекстом, параметрами моделей и архитектурой llm-пайплайнов (один промпт, цепочка промптов и т.п.);
Совместно с продактами участвовать в дизайне диалоговых сценариев;
Тестировать и оценивать качество работы llm-решений на всех этапах — собирать и регулярно актуализировать golden-сеты, валидационные выборки, создавать метрики и бенчмарки, настраивать llm-as-a-judge;
Разрабатывать инструкции для разметчиков, принимать участие в разметке (в том числе, самостоятельно размечать golden-сеты);
Анализировать логи, трейсы и фидбек по реальной работе ассистентов в продакшене и улучшать их качество на основе найденных инсайтов;
Интегрировать LLM в продукты вместе с разработчиками.

Требования:

1-3 года опыта решения реальных бизнес-задач с использованием LLM (цепочки промптов, structured outputs, диалоговые ассистенты);
Хороший Python, опыт работы с аналитическими инструментами (jupyter, pandas, matplotlib);
Опыт с SQL, навыки работы с данными, умение собрать датасет и провести аналитику;
Опыт с OpenAI API и аналогами;
Навыки тестирования и регресс‑проверок промптов, понимание подходов к оценке llm-систем (offline-метрики, human evaluation, llm-as-a-judge, A/B тестирование).

Будет плюсом:
- Опыт использования алгоритмов автоматической оптимизации промптов (GEPA и др);
- Опыт организации процесса разметки, построения golden‑датасетов и автоматизации эвалов;
- Опыт использования валидационных фреймворков и инструментов observability (DeepEval, LangFuse, MlFlow, LangSmith и др.);
- Опыт с фреймворками оркестрации llm (langgraph, langchain или аналоги);
- Опыт построения сложных агентных систем, RAG.