RAG Evaluation · DeepEval 2.x

DeepEval для оценки RAG-систем

Послойная диагностика RAG-системы через DeepEval 2.x и RAGAS. Четыре метрики с настраиваемыми порогами, hallucination score и точное указание — в каком слое pipeline теряется качество.

DeepEval 2.xпоследняя версия фреймворка
4 метрикис настраиваемыми порогами
Hallucination scoreконкретные предложения-галлюцинации
deepthroath run --profile rag-deepeval

Answer Relevancy

Порог ≥ 0.7 — 0.83 ✓ pass

Faithfulness

Порог ≥ 0.8 — 0.61 ✗ fail

Contextual Precision

Порог ≥ 0.7 — 0.76 ✓ pass

Contextual Recall

Порог ≥ 0.6 — 0.54 ✗ fail

Hallucination verdict 2 предложения не подтверждены контекстом

Модель отвечает из параметрических знаний. Retrieval не даёт достаточного покрытия по вопросам датасета.

Passed2 / 4 Halluc.18% GateBlocked
Диагностика

Метрика упала — в каком слое проблема.

Каждая метрика указывает на конкретный слой RAG-pipeline. Не нужно гадать — отчёт сразу показывает где копать.

Проблема retrievalContext Precision упала

Retrieval тянет нерелевантные чанки. Уменьшите chunk size, добавьте metadata-фильтр или смените embedding-модель на доменную.

Проблема rankerPrecision OK, Recall низкий

Чанки находятся, но не все попадают в top-k. Добавьте cross-encoder re-ranking или увеличьте top-k с последующей фильтрацией.

Проблема промптаAnswer Relevancy упала

Модель не следует инструкции — уходит от темы или перефразирует не тот аспект. Переработайте system prompt, добавьте few-shot примеры.

Проблема generationFaithfulness упала

Модель игнорирует переданный контекст и генерирует из параметрических знаний. Явно запретите ответ без контекста в system prompt.

Faithfulness ≥ 0.8

Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций.

Answer Relevancy ≥ 0.7

Отвечает ли модель именно на вопрос. Низкое значение — уход в соседние темы или игнорирование части запроса.

Contextual Precision ≥ 0.7

Попал ли retrieval в релевантные документы. Низкое значение — шум в векторном поиске или слишком крупный chunking.

Contextual Recall ≥ 0.6

Достаточно ли контекста для полного ответа. Если recall низкий — нужные документы не попадают в retrieval.

Метрики оценки

Четыре метрики — четыре слоя диагностики.

DeepEval 2.x оценивает каждую метрику через LLM-as-a-judge с настраиваемым промптом. Порог задаётся отдельно для каждой метрики под ваш домен и тип контента.

Дополнительно DeepThroat запускает RAGAS на том же датасете. Расхождение между DeepEval и RAGAS указывает на проблемные вопросы, которые стоит разобрать вручную и добавить в regression suite.

Deliverables

Что вы получаете после оценки.

01

DeepEval pipeline

02

Метрики по вопросам и сегментам

03

Отчет о hallucination и grounding

04

Рекомендации по retrieval и prompts

Процесс

От подключения до диагностического отчёта.

1

Готовим датасет вопросов

2

Подключаем offline или online RAG API

3

Запускаем DeepEval-метрики

4

Разбираем провалы и формируем план улучшений

FAQ

Частые вопросы.

Вопросы и ответы

Чем DeepEval отличается от RAGAS при оценке RAG?

DeepEval использует LLM-as-a-judge с настраиваемыми критериями и порогами — гибко, но требует judge-модели. RAGAS считает метрики через собственную логику с меньшей зависимостью от judge. DeepThroat запускает оба фреймворка на одном датасете: расхождение указывает на граничные кейсы, которые стоит изучить вручную.

Как правильно выставить thresholds для метрик?

Стартовые значения: Faithfulness ≥ 0.8, Answer Relevancy ≥ 0.7, Context Precision ≥ 0.7, Context Recall ≥ 0.6. После первого прогона смотрите на распределение баллов в вашем домене — пороги могут быть мягче для длинных аналитических ответов и строже для фактических справок.

Как DeepThroat измеряет hallucination score?

Hallucination score — это инверсия Faithfulness: (1 - faithfulness). Дополнительно платформа выделяет конкретные предложения в ответе, не подтверждённые ни одним чанком из retrieval. Это позволяет показать разработчику не просто число, а конкретные галлюцинации.

Online-оценка в продакшне vs offline на датасете — что выбрать?

Offline на эталонном датасете — обязательный шаг перед каждым релизом. Online-оценка на реальном трафике нужна для мониторинга дрейфа после выкатки. Оптимальная стратегия: offline в CI/CD как release gate, online на выборке 5–10% трафика как alerting.

Следующий шаг

Диагностируйте свой RAG pipeline.

Расскажите про архитектуру и болевые точки — настроим метрики под ваш домен и покажем первые результаты.

Обсудить задачу
Безопасность RAG

Нужен ещё и red teaming RAG?

Проверьте RAG на context hijacking и prompt injection — косвенные атаки через документы в базе знаний.

Red Teaming LLM

Связанные услуги

DeepThroat: red teaming LLM-систем

Проводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.

deepteamred teaming llmjailbreak test

Анализ качества ответов AI и LLM

Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.

анализ качества ответов ииоценка ответов llmllm quality assurance

AI QA в CI/CD для LLM-продуктов

Встраиваем проверки качества и безопасности LLM в релизный процесс, чтобы ловить регрессии до пользователей.

ai qa ci cdllm regression testsтесты чатбота