Faithfulness
Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций. Если ниже — модель добавляет факты которых нет в документах.
DeepThroat запускает DeepEval и RAGAS одновременно, раскладывает качество по четырём метрикам с настраиваемыми порогами и указывает на конкретный слой проблемы.
Retrieval приносит шум. Faithfulness и relevancy прошли. Recommend: уменьшить chunk size.
Порог ≥ 0.8
Порог ≥ 0.7
Порог ≥ 0.7
Порог ≥ 0.6
Precision и Recall указывают на retrieval, Faithfulness — на генерацию, Relevancy — на промпт или модель. DeepThroat запускает DeepEval и RAGAS на одном датасете — расхождение между ними указывает на граничные кейсы.
Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций. Если ниже — модель добавляет факты которых нет в документах.
Отвечает ли модель именно на вопрос. Низкое значение — уход в соседние темы или игнорирование части запроса. Часто указывает на проблему в промпте, не в retrieval.
Попал ли retrieval в релевантные документы. Низкое значение — шум в поиске или слишком крупный chunking. Проблема в retrieval-слое, не в генерации.
Достаточно ли контекста для полного ответа. Если низкий — нужные документы не попадают в retrieval и модель отвечает неполно, даже если генерация хорошая.
Каждая метрика указывает на конкретный слой пайплайна и конкретный шаг исправления.
Уменьшите chunk size или добавьте metadata-фильтрацию. Проверьте embedding-модель на вашем домене.
Увеличьте top-k или добавьте re-ranking. Возможно, база знаний не покрывает вопросы датасета.
Добавьте в system prompt запрет отвечать без контекста. Рассмотрите более строгую judge-модель.
Проблема в промпте: переформулируйте инструкцию, добавьте few-shot примеры или снизьте top-k.
Запустите один датасет на двух версиях RAG: разные chunk size, embedding-модели или top-k. DeepThroat строит сравнительный отчёт — видно какая конфигурация лучше по каждой из четырёх метрик.
Config A wins on 3/4 metrics Recall gap: +7% — check top-k
DeepEval оценивает через LLM-as-a-judge с настраиваемыми критериями, RAGAS — через статистические метрики. DeepThroat запускает оба одновременно: расхождение между ними указывает на граничные кейсы.
Для Faithfulness и Context Precision — нет, нужен только вопрос и контекст из retrieval. Для Answer Relevancy и Recall — желательны reference answers.
Загрузите один датасет и укажите два endpoint или два профиля retrieval. DeepThroat прогоняет одни вопросы через обе конфигурации и строит сравнительный отчёт.
После смены модели, промпта, chunking-стратегии или базы знаний. Подключите в CI/CD — тогда деградация видна до того как попадёт к пользователям.
Расскажите про архитектуру и болевые точки — покажем как настроить метрики под ваш домен.
Обсудить задачуПроверьте RAG на context hijacking и prompt injection — косвенные атаки через документы в базе знаний.
Red Teaming LLMОпишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.