Главная / Услуги / DeepEval для оценки RAG-систем

RAG Evaluation · DeepEval 2.x

DeepEval для оценки RAG-систем

Послойная диагностика RAG-системы через DeepEval 2.x и RAGAS. Четыре метрики с настраиваемыми порогами, hallucination score и точное указание — в каком слое pipeline теряется качество.

Диагностировать RAG Диагностика

DeepEval 2.xпоследняя версия фреймворка

4 метрикис настраиваемыми порогами

Hallucination scoreконкретные предложения-галлюцинации

deepthroath run --profile rag-deepeval

Answer Relevancy

Порог ≥ 0.7 — 0.83 ✓ pass

Faithfulness

Порог ≥ 0.8 — 0.61 ✗ fail

Contextual Precision

Порог ≥ 0.7 — 0.76 ✓ pass

Contextual Recall

Порог ≥ 0.6 — 0.54 ✗ fail

Hallucination verdict 2 предложения не подтверждены контекстом

Модель отвечает из параметрических знаний. Retrieval не даёт достаточного покрытия по вопросам датасета.

Passed2 / 4 Halluc.18% GateBlocked

Диагностика

Метрика упала — в каком слое проблема.

Каждая метрика указывает на конкретный слой RAG-pipeline. Не нужно гадать — отчёт сразу показывает где копать.

Проблема retrievalContext Precision упала

Retrieval тянет нерелевантные чанки. Уменьшите chunk size, добавьте metadata-фильтр или смените embedding-модель на доменную.

Проблема rankerPrecision OK, Recall низкий

Чанки находятся, но не все попадают в top-k. Добавьте cross-encoder re-ranking или увеличьте top-k с последующей фильтрацией.

Проблема промптаAnswer Relevancy упала

Модель не следует инструкции — уходит от темы или перефразирует не тот аспект. Переработайте system prompt, добавьте few-shot примеры.

Проблема generationFaithfulness упала

Модель игнорирует переданный контекст и генерирует из параметрических знаний. Явно запретите ответ без контекста в system prompt.

Faithfulness ≥ 0.8

Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций.

Answer Relevancy ≥ 0.7

Отвечает ли модель именно на вопрос. Низкое значение — уход в соседние темы или игнорирование части запроса.

Contextual Precision ≥ 0.7

Попал ли retrieval в релевантные документы. Низкое значение — шум в векторном поиске или слишком крупный chunking.

Contextual Recall ≥ 0.6

Достаточно ли контекста для полного ответа. Если recall низкий — нужные документы не попадают в retrieval.

Метрики оценки

Четыре метрики — четыре слоя диагностики.

DeepEval 2.x оценивает каждую метрику через LLM-as-a-judge с настраиваемым промптом. Порог задаётся отдельно для каждой метрики под ваш домен и тип контента.

Дополнительно DeepThroat запускает RAGAS на том же датасете. Расхождение между DeepEval и RAGAS указывает на проблемные вопросы, которые стоит разобрать вручную и добавить в regression suite.

Deliverables

Что вы получаете после оценки.

DeepEval pipeline

Метрики по вопросам и сегментам

Отчет о hallucination и grounding

Рекомендации по retrieval и prompts

Процесс

От подключения до диагностического отчёта.

Готовим датасет вопросов

Подключаем offline или online RAG API

Запускаем DeepEval-метрики

Разбираем провалы и формируем план улучшений

FAQ

Частые вопросы.

Вопросы и ответы

Чем DeepEval отличается от RAGAS при оценке RAG?

DeepEval использует LLM-as-a-judge с настраиваемыми критериями и порогами — гибко, но требует judge-модели. RAGAS считает метрики через собственную логику с меньшей зависимостью от judge. DeepThroat запускает оба фреймворка на одном датасете: расхождение указывает на граничные кейсы, которые стоит изучить вручную.

Как правильно выставить thresholds для метрик?

Стартовые значения: Faithfulness ≥ 0.8, Answer Relevancy ≥ 0.7, Context Precision ≥ 0.7, Context Recall ≥ 0.6. После первого прогона смотрите на распределение баллов в вашем домене — пороги могут быть мягче для длинных аналитических ответов и строже для фактических справок.

Как DeepThroat измеряет hallucination score?

Hallucination score — это инверсия Faithfulness: (1 - faithfulness). Дополнительно платформа выделяет конкретные предложения в ответе, не подтверждённые ни одним чанком из retrieval. Это позволяет показать разработчику не просто число, а конкретные галлюцинации.

Online-оценка в продакшне vs offline на датасете — что выбрать?

Offline на эталонном датасете — обязательный шаг перед каждым релизом. Online-оценка на реальном трафике нужна для мониторинга дрейфа после выкатки. Оптимальная стратегия: offline в CI/CD как release gate, online на выборке 5–10% трафика как alerting.

Следующий шаг

Диагностируйте свой RAG pipeline.

Расскажите про архитектуру и болевые точки — настроим метрики под ваш домен и покажем первые результаты.

Обсудить задачу

Безопасность RAG

Нужен ещё и red teaming RAG?

Проверьте RAG на context hijacking и prompt injection — косвенные атаки через документы в базе знаний.

Red Teaming LLM