Answer Relevancy
Порог ≥ 0.7 — 0.83 ✓ pass
Послойная диагностика RAG-системы через DeepEval 2.x и RAGAS. Четыре метрики с настраиваемыми порогами, hallucination score и точное указание — в каком слое pipeline теряется качество.
Порог ≥ 0.7 — 0.83 ✓ pass
Порог ≥ 0.8 — 0.61 ✗ fail
Порог ≥ 0.7 — 0.76 ✓ pass
Порог ≥ 0.6 — 0.54 ✗ fail
Модель отвечает из параметрических знаний. Retrieval не даёт достаточного покрытия по вопросам датасета.
Каждая метрика указывает на конкретный слой RAG-pipeline. Не нужно гадать — отчёт сразу показывает где копать.
Retrieval тянет нерелевантные чанки. Уменьшите chunk size, добавьте metadata-фильтр или смените embedding-модель на доменную.
Чанки находятся, но не все попадают в top-k. Добавьте cross-encoder re-ranking или увеличьте top-k с последующей фильтрацией.
Модель не следует инструкции — уходит от темы или перефразирует не тот аспект. Переработайте system prompt, добавьте few-shot примеры.
Модель игнорирует переданный контекст и генерирует из параметрических знаний. Явно запретите ответ без контекста в system prompt.
Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций.
Отвечает ли модель именно на вопрос. Низкое значение — уход в соседние темы или игнорирование части запроса.
Попал ли retrieval в релевантные документы. Низкое значение — шум в векторном поиске или слишком крупный chunking.
Достаточно ли контекста для полного ответа. Если recall низкий — нужные документы не попадают в retrieval.
DeepEval 2.x оценивает каждую метрику через LLM-as-a-judge с настраиваемым промптом. Порог задаётся отдельно для каждой метрики под ваш домен и тип контента.
Дополнительно DeepThroat запускает RAGAS на том же датасете. Расхождение между DeepEval и RAGAS указывает на проблемные вопросы, которые стоит разобрать вручную и добавить в regression suite.
DeepEval pipeline
Метрики по вопросам и сегментам
Отчет о hallucination и grounding
Рекомендации по retrieval и prompts
Готовим датасет вопросов
Подключаем offline или online RAG API
Запускаем DeepEval-метрики
Разбираем провалы и формируем план улучшений
DeepEval использует LLM-as-a-judge с настраиваемыми критериями и порогами — гибко, но требует judge-модели. RAGAS считает метрики через собственную логику с меньшей зависимостью от judge. DeepThroat запускает оба фреймворка на одном датасете: расхождение указывает на граничные кейсы, которые стоит изучить вручную.
Стартовые значения: Faithfulness ≥ 0.8, Answer Relevancy ≥ 0.7, Context Precision ≥ 0.7, Context Recall ≥ 0.6. После первого прогона смотрите на распределение баллов в вашем домене — пороги могут быть мягче для длинных аналитических ответов и строже для фактических справок.
Hallucination score — это инверсия Faithfulness: (1 - faithfulness). Дополнительно платформа выделяет конкретные предложения в ответе, не подтверждённые ни одним чанком из retrieval. Это позволяет показать разработчику не просто число, а конкретные галлюцинации.
Offline на эталонном датасете — обязательный шаг перед каждым релизом. Online-оценка на реальном трафике нужна для мониторинга дрейфа после выкатки. Оптимальная стратегия: offline в CI/CD как release gate, online на выборке 5–10% трафика как alerting.
Расскажите про архитектуру и болевые точки — настроим метрики под ваш домен и покажем первые результаты.
Обсудить задачуПроверьте RAG на context hijacking и prompt injection — косвенные атаки через документы в базе знаний.
Red Teaming LLMПроводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.
Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.
Встраиваем проверки качества и безопасности LLM в релизный процесс, чтобы ловить регрессии до пользователей.
Опишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.