Tech Lead — LLM Evaluation

HeadHunter

Tech Lead — LLM Evaluation

Москва, улица Годовикова, 9с10

Метро: Алексеевская

Описание вакансии

Мы ищем технического лидера, который поможет выстроить в компании системный подход к оценке качества LLM-моделей. Если вам интересно закладывать основу для устойчивого использования GenAI в продуктах — через бенчмарки, метрики и процессы, которым будут следовать десятки команд, и вы смотрите на ML не просто как на модели, а как на инструмент влияния на продукт — мы будем рады видеть вас в нашей команде.

Мы активно развиваем GenAI-направление в hh.ru. Уже сейчас в разных командах используются LLM-модели для генерации текстов, диалогов, классификации и анализа вакансий и резюме. Направление развивается стремительными темпами, и централизованная экспертиза по оценке качества моделей станет критически важной частью всей AI-инфраструктуры.

Обязанности:

  • Построение фреймворка оценки LLM-моделей: бенчмарки, пайплайны, автоматизация;

  • Разработка стандартов оценки и помощь другим командам в их применении;

  • Сравнение и анализ моделей от вендоров и open-source;

  • Организация процессов human и LLM-based оценки (включая асессорскую разметку и LLM-as-a-judge);

  • Анализ качества моделей и их влияния на продуктовые метрики;

  • Работа с реальными GenAI-фичами на масштабе десятков миллионов пользователей.

Требования:

  • Опыт построения и внедрения систем оценки качества ML-моделей в продуктах (offline-метрики, human evaluation, A/B);

  • Понимание задач и методов NLP/LLM: генерация, классификация, ранжирование, reasoning и др.;

  • Опыт разработки или поддержки пайплайнов оценки (Python, ML-инфраструктура, автоматизация);

  • Навыки структурирования и сбора human-разметки, знание подходов LLM-as-a-judge;

  • Уверенное владение Python (numpy, pandas, sklearn, PyTorch), опыт с HuggingFace, LangChain и пр.;

  • Будет плюсом участие в OSS-инициативах (Open LLM Leaderboard, MT-Bench, Arena, trlx и пр.);

  • Готовность быть драйвером best practices внутри компании.

Условия:

  • Возможность выбора места работы: удаленно или из офиса;

  • Гибкий график рабочего дня;

  • Оформление в соответствии с ТК РФ, «Белая» заработная плата, выплачиваемая точно в срок;

  • Корпоративное ДМС с первого месяца работы (решаем вопросы со здоровьем быстро и удобно);

  • Возможность профессионального развития, обучение за счет компании, участие в специализированных конференциях;

Навыки
  • machine learning
  • data science
  • genai
  • llm evaluation
  • benchmarks
  • human eval
  • mt-bench
  • langchain
  • oss models
  • prompt engineering
  • system design
  • Numpy
  • pandas
  • nlp
  • reasoning
  • a/b experiments
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию