RAG Evaluation · DeepEval + RAGAS

Покажите не просто "ответ хороший" — а где именно pipeline теряет качество.

Q: Чем DeepEval отличается от RAGAS?

DeepEval оценивает через LLM-as-a-judge с настраиваемыми критериями, RAGAS — через статистические метрики. DeepThroat запускает оба одновременно: расхождение между ними указывает на граничные кейсы.

Q: Нужны ли эталонные ответы для оценки?

Для Faithfulness и Context Precision — нет, нужен только вопрос и контекст из retrieval. Для Answer Relevancy и Recall — желательны reference answers.

Q: Как организовать A/B тест двух RAG-конфигураций?

Загрузите один датасет и укажите два endpoint или два профиля retrieval. DeepThroat прогоняет одни вопросы через обе конфигурации и строит сравнительный отчёт.

Q: Когда запускать RAG evaluation?

После смены модели, промпта, chunking-стратегии или базы знаний. Подключите в CI/CD — тогда деградация видна до того как попадёт к пользователям.

DeepThroat запускает DeepEval и RAGAS одновременно, раскладывает качество по четырём метрикам с настраиваемыми порогами и указывает на конкретный слой проблемы.

Оценить RAG pipeline Метрики

DeepEval+ RAGAS одновременно

4 метрикис настраиваемыми порогами

A/Bсравнение конфигураций

deepthroath run --profile rag-quality

Quality verdict Context Precision ниже порога

Retrieval приносит шум. Faithfulness и relevancy прошли. Recommend: уменьшить chunk size.

Questions120 done Passed3 / 4 GateNot ready

Faithfulness

Порог ≥ 0.8

Answer Relevancy

Порог ≥ 0.7

Context Precision

Порог ≥ 0.7

Context Recall

Порог ≥ 0.6

По странице

Метрики→A/B сравнение→DeepEval услуга→Контакты→

Метрики оценки

Четыре метрики — четыре слоя диагностики.

Precision и Recall указывают на retrieval, Faithfulness — на генерацию, Relevancy — на промпт или модель. DeepThroat запускает DeepEval и RAGAS на одном датасете — расхождение между ними указывает на граничные кейсы.

≥ 0.8

Faithfulness

Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций. Если ниже — модель добавляет факты которых нет в документах.

≥ 0.7

Answer Relevancy

Отвечает ли модель именно на вопрос. Низкое значение — уход в соседние темы или игнорирование части запроса. Часто указывает на проблему в промпте, не в retrieval.

≥ 0.7

Context Precision

Попал ли retrieval в релевантные документы. Низкое значение — шум в поиске или слишком крупный chunking. Проблема в retrieval-слое, не в генерации.

≥ 0.6

Context Recall

Достаточно ли контекста для полного ответа. Если низкий — нужные документы не попадают в retrieval и модель отвечает неполно, даже если генерация хорошая.

Диагностика

Метрика упала — что делать.

Каждая метрика указывает на конкретный слой пайплайна и конкретный шаг исправления.

Precision < 0.6

Retrieval шумит

Уменьшите chunk size или добавьте metadata-фильтрацию. Проверьте embedding-модель на вашем домене.

Recall < 0.5

Retrieval неполный

Увеличьте top-k или добавьте re-ranking. Возможно, база знаний не покрывает вопросы датасета.

Faithfulness < 0.7

Модель галлюцинирует

Добавьте в system prompt запрет отвечать без контекста. Рассмотрите более строгую judge-модель.

Relevancy < 0.6

Ответ не по вопросу

Проблема в промпте: переформулируйте инструкцию, добавьте few-shot примеры или снизьте top-k.

A/B сравнение

Сравните две конфигурации на одном датасете.

Запустите один датасет на двух версиях RAG: разные chunk size, embedding-модели или top-k. DeepThroat строит сравнительный отчёт — видно какая конфигурация лучше по каждой из четырёх метрик.

01Загрузите датасет вопросов и эталонов.

02Укажите два endpoint или профиля retrieval.

03Получите сравнительный отчёт по всем метрикам.

Faithfulness0.84 vs 0.79

Answer Relevancy0.81 vs 0.74

Context Precision0.71 vs 0.65

Context Recall0.58 vs 0.51

Config A wins on 3/4 metrics
Recall gap: +7% — check top-k

FAQ

Частые вопросы.

Вопросы и ответы

Чем DeepEval отличается от RAGAS?

DeepEval оценивает через LLM-as-a-judge с настраиваемыми критериями, RAGAS — через статистические метрики. DeepThroat запускает оба одновременно: расхождение между ними указывает на граничные кейсы.

Нужны ли эталонные ответы для оценки?

Для Faithfulness и Context Precision — нет, нужен только вопрос и контекст из retrieval. Для Answer Relevancy и Recall — желательны reference answers.

Как организовать A/B тест двух RAG-конфигураций?

Загрузите один датасет и укажите два endpoint или два профиля retrieval. DeepThroat прогоняет одни вопросы через обе конфигурации и строит сравнительный отчёт.

Когда запускать RAG evaluation?

После смены модели, промпта, chunking-стратегии или базы знаний. Подключите в CI/CD — тогда деградация видна до того как попадёт к пользователям.

Следующий шаг

Оцените свой RAG pipeline с датасетом.

Расскажите про архитектуру и болевые точки — покажем как настроить метрики под ваш домен.

Обсудить задачу

Безопасность

Нужен ещё и red teaming?

Проверьте RAG на context hijacking и prompt injection — косвенные атаки через документы в базе знаний.

Red Teaming LLM