faithfulness block
Порог ≥ 0.80. При значении ниже — деплой заблокирован.
Встраиваем автоматическую оценку качества LLM в ваш CI/CD pipeline. Quality gates блокируют деплой при регрессии — промпт, модель или RAG-конфигурация не уходят в продакшн без проверки.
Промпт изменился, faithfulness упал с 0.84 до 0.61. Деплой заблокирован. Нужен ревью промпта перед мержем.
Внедрение идёт поэтапно — не нужно останавливать разработку. Каждый этап добавляет ценность самостоятельно.
Определяем критичные сценарии
Выбираем метрики и пороги
Подключаем тесты к pipeline
Настраиваем алерты и историю прогонов
Quality gate — это пороговое условие по метрике, которое должно быть выполнено для прохождения CI. Если хотя бы один gate не пройден — pipeline завершается с ненулевым кодом, и деплой не происходит.
Пороги выставляются индивидуально: жёсткий блокирующий порог и мягкий warn-порог, при котором CI проходит, но команда получает уведомление. Это позволяет отловить деградацию до того, как она станет критической.
Порог ≥ 0.80. При значении ниже — деплой заблокирован.
Порог ≥ 0.70. Контролирует соответствие ответа вопросу.
Порог ≥ 0.95. При значении ниже — предупреждение, деплой не блокируется.
Порог σ ≤ 0.05. Высокий разброс — нестабильный промпт.
Quality gates для релизов
CLI/скрипты для CI
Набор smoke и regression тестов
Отчеты для команды продукта
Базовая интеграция с GitHub Actions или GitLab CI занимает 1–2 рабочих дня: подключение endpoint, конфигурация профиля метрик, первый прогон на тестовом датасете. Полноценный quality gate с настроенными порогами и regression suite готов за 1–2 недели.
Ключ — правильная калибровка порогов на историческом датасете. DeepThroat показывает распределение баллов по каждой метрике, что позволяет выставить пороги так, чтобы блокировать реальные регрессии, но не флагировать допустимую вариативность. Дополнительно можно настроить warn-зону между мягким и жёстким порогом.
Минимальный набор: Faithfulness (галлюцинации), Answer Relevancy (соответствие запросу) и stability score (разброс при повторных прогонах). Для продуктов с форматированным выводом добавьте format consistency. Для RAG — Context Precision и Recall.
Рекомендуется staging: это изолирует тесты от реального трафика и позволяет тестировать новые версии промптов без риска. Если staging нет — можно тестировать на продакшн-endpoint, но с ограничением по rate limit и отдельным API-ключом для CI.
Расскажите про ваш стек и CI-систему — покажем как интегрировать и выставить пороги под ваш продукт.
Обсудить задачуСначала оцените базовое качество ответов — получите данные для настройки порогов и первого датасета.
Анализ качества AIПроводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.
Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.
Настраиваем DeepEval-метрики: Answer Relevancy, Faithfulness, Contextual Precision и Contextual Recall.
Опишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.