Эйчартех Яндекса создаёт и поддерживает экосистему внутренних сервисов для ежедневной работы десятков тысяч сотрудников. Мы строим не только классические ML-решения, но и AI-продукты, которые меняют внутренние процессы компании: автоматизируем поддержку сотрудников, суммаризируем встречи, помогаем оценивать кандидатов на интервью, разрабатываем AI-ассистента. Каждый из этих продуктов работает на основе LLM — и каждый должен приносить измеримую пользу бизнесу.
Ищем специалиста, который умеет думать не только о технологиях, но и о бизнес-результатах: находить, где AI реально сэкономит время и деньги, измерять эффект и итеративно улучшать продукт.
Оценка качества LLM-продуктов
Вам предстоит создавать метрики качества для каждого продукта с учётом их специфики, выстраивать и поддерживать Evaluation Harness, внедрять LLM-as-a-judge: проектировать судей под конкретные задачи, заниматься их калибровкой и контролем смещений. Также нужно будет собирать ground truth датасета и контролировать его качество.
Промпт-инжиниринг и эксперименты
Вы будете участвовать в разработке и итерации промптов для продуктовых задач: генерации, классификации, извлечения информации, суммаризации. Предстоит формировать гипотезы о причинах деградаций и проверять их через эксперименты.
Аналитика и влияние на результат
Нужно будет находить места, где больше всего ручной работы и где AI принесёт максимальную пользу. В ваши задачи войдёт диагностика просадок метрик: поиск причин и локализация проблем. Вы будете внедрять лучшие практики в Evaluation Harness. Важно глубоко понимать бизнес-метрики и эффект от внедрения LLM.