LLM evaluation engineer

2ГИС

LLM evaluation engineer

Описание вакансии

Мы в 2ГИС активно внедряем искусственный интеллект в наши продукты, рабочие процессы и внутренние сервисы.
Чтобы принимать технически взвешенные решения, нам нужно точно понимать, как разные LLM-модели работают на наших задачах — и когда они действительно приносят пользу, а когда нет.
Для этого мы ищем инженера по автоматизации тестирования, который будет строить и поддерживать бенчмарк-систему для оценки качества моделей.

Задачи

  • Построить процесс для сравнительного тестирования LLM (GPT, Claude, Gemini, LLaMA, Qwen, Гигачат и др.) на внутренних задачах.
  • Разрабатывать и поддерживать наборы сценариев и метрик качества: точность, полнота, стабильность, отклонения от ожиданий.
  • Настраивать прогон моделей по задачам с сохранением результатов, логов, срезов и версий.
  • Работать вместе с аналитиками и разработчиками, чтобы подсветить сильные и слабые стороны каждой модели — и вовремя переключаться на более подходящую.
  • Следить за выходом новых моделей и помогать команде принимать решения о миграции, если это оправдано.

Что важно

  • Уверенно пишете автотесты на Python, умеете работать с API, логами, CI/CD.
  • Понимаете основы работы LLM — чем отличаются модели, как их «ломают», как устроены типичные ошибки.
  • Умеете выстраивать метрики качества, не только по классическим формулам, но и с учётом контекста и задач.
  • Аккуратно подходите к экспериментам: умеете сравнивать “яблоки с яблоками”, не смешивая версии, входы и модели.
  • Комфортно себя чувствуете в инженерной среде — умеете обсуждать гипотезы, делиться результатами, быть частью общего цикла разработки.

Эта роль — про инженерную наблюдательность и аккуратность, про то, чтобы команда принимала решения не «на глаз», а на данных. Ты не просто пишешь автотесты, а строишь систему измерения качества — чтобы понять, когда мы можем доверять ИИ, а когда — ещё рано.

Кроме того

  • 2ГИС — аккредитованная IT-компания.
  • Можно работать удалённо. Для нас важен специалист, а не его локация. Если хочешь работать в гибридном формате, у нас есть офисы в Москве, Санкт-Петербурге, два классных офиса в Новосибирске. А также коворкинги в Томске, Астане и Алма-Ате.
  • График не главное. Кто-то начинает работу в 9, кто-то в 11, а кто-то — когда удобно ему и команде. Главное — выполнять задачи в срок и быть на связи с коллегами.
  • Само собой, полностью белая зарплата, размер обсуждается на собеседовании, потолка нет.
  • Есть ДМС, штатный терапевт, невролог, мед.консультант и другие IT-плюшки.
  • Если хочешь делиться своим опытом, мы только за — поможем с выступлениями на конференциях и статьями для Хабра.
Навыки
  • Python
  • Написание автотестов
  • API
  • CI/CD
Посмотреть контакты работодателя

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию