Мы — команда Raft. Занимаемся разработкой решений на базе AI, внесли свой вклад во фреймворк Langchain, создали собственный инновационный продукт для анализа голосовой связи с помощью GPT, а также провели обширные исследования и разработки в области безопасности LLM. Мы работаем как на рынке РФ, так и на международном.
Мы верим, что технологии искусственного интеллекта – это ключ к инновациям и невероятной эффективности. В нашей компании мы активно внедряем AI-инструменты в процесс разработки, чтобы каждый разработчик мог раскрыть свой потенциал и достичь новых высот.
Ищем AI QA инженера — специалиста, который понимает специфику тестирования вероятностных систем, готов погружаться в LLM-evaluation и обеспечивать качество ответов наших AI-агентов.
Что будешь делать:
- Настраивать и автоматизировать пайплайны оценки качества ответов (LLM-evaluation) с использованием фреймворка DeepEval.
- Проводить Red Teaming и тесты на безопасность: искать уязвимости, тестировать сценарии обхода ограничений модели (Prompt Injection) и выявлять галлюцинации.
- Валидировать точность и консистентность данных при сложной многоязычной транслитерации (в том числе цепочки RU -> EN -> AR).
- Составлять сложные граничные кейсы для проверки логики работы AI-агентов и проводить ручную верификацию ответов на соответствие контексту и бизнес-требованиям.
- Разрабатывать полную тестовую документацию: тест-стратегии, тест-планы, кейсы и формировать отчетность по результатам релизов.
- Взаимодействовать с командой ML-инженеров и разработчиков для улучшения метрик качества моделей.
Что ждём от тебя:
- Опыт в QA от 2-х лет (желательно с бэкендом или данными).
- Понимание принципов работы LLM и специфики их тестирования (недетерминированность, галлюцинации).
- Опыт написания кода на Python для автоматизации проверок и работы с фреймворками оценки (DeepEval или аналоги).
- Умение работать с большими объемами текстовых данных и внимательность к лингвистическим нюансам.
- Навыки составления тестовой документации и тест-дизайна для сложных систем.
- Умение работать в команде и ответственность за результат.
Будет плюсом:
- Опыт работы с векторными базами данных.
- Знание CI/CD (GitLab, GitHub Actions) для встраивания пайплайнов оценки.
- Опыт работы с LangChain или LlamaIndex.
- Понимание метрик RAG (Faithfulness, Answer Relevancy, Context Recall).
Что предлагаем:
- Полную занятость (40 часов в неделю).
- Возможность удаленной работы или гибкий график в офисе.
- Дружелюбную команду, готовую поддерживать и прислушиваться к твоим идеям.
- Профессиональный рост: участие в конференциях, обучение и развитие.
- Конкурентную заработную плату.