ML-аналитик (LLM)

Описание вакансии

Эйчартех Яндекса создаёт и поддерживает экосистему внутренних сервисов для ежедневной работы десятков тысяч сотрудников. Мы строим не только классические ML-решения, но и AI-продукты, которые меняют внутренние процессы компании: автоматизируем поддержку сотрудников, суммаризируем встречи, помогаем оценивать кандидатов на интервью, разрабатываем AI-ассистента. Каждый из этих продуктов работает на основе LLM — и каждый должен приносить измеримую пользу бизнесу.

Ищем специалиста, который умеет думать не только о технологиях, но и о бизнес-результатах: находить, где AI реально сэкономит время и деньги, измерять эффект и итеративно улучшать продукт.

Какие задачи вас ждут

Оценка качества LLM-продуктов
Вам предстоит создавать метрики качества для каждого продукта с учётом их специфики, выстраивать и поддерживать Evaluation Harness, внедрять LLM-as-a-judge: проектировать судей под конкретные задачи, заниматься их калибровкой и контролем смещений. Также нужно будет собирать ground truth датасета и контролировать его качество.

Промпт-инжиниринг и эксперименты
Вы будете участвовать в разработке и итерации промптов для продуктовых задач: генерации, классификации, извлечения информации, суммаризации. Предстоит формировать гипотезы о причинах деградаций и проверять их через эксперименты.

Аналитика и влияние на результат
Нужно будет находить места, где больше всего ручной работы и где AI принесёт максимальную пользу. В ваши задачи войдёт диагностика просадок метрик: поиск причин и локализация проблем. Вы будете внедрять лучшие практики в Evaluation Harness. Важно глубоко понимать бизнес-метрики и эффект от внедрения LLM.

Мы ждём, что вы

Имеете более трёх лет коммерческого опыта работы с ML-решениями, не менее года — с LLM/RAG
Работали с OpenAI API, Hugging Face или их аналогами
Пишете код на Python
Умеете работать с данными и строить аналитику
Способны измерять и улучшать качество LLM-продуктов

Будет плюсом, если вы

Работали с evaluation-фреймворками: LM Evaluation Harness, OpenAI Evals, HELM или аналогами
Делали тонкую настройку сложных RAG-пайплайнов
Участвовали в разработке диалоговых сервисов или AI-агентов