AI QA · CI/CD Integration

AI QA в CI/CD для LLM-продуктов

Встраиваем автоматическую оценку качества LLM в ваш CI/CD pipeline. Quality gates блокируют деплой при регрессии — промпт, модель или RAG-конфигурация не уходят в продакшн без проверки.

GitHub Actions/ GitLab CI
Quality gatesнастраиваемые пороги
Release blockerдеплой только после прохождения
deepthroath run --profile ci-quality --ci
Prompt changed Run QA suite 3 / 4 gates passed ❌ Deploy blocked
CI/CD gate verdict Faithfulness gate failed — deploy blocked

Промпт изменился, faithfulness упал с 0.84 до 0.61. Деплой заблокирован. Нужен ревью промпта перед мержем.

Gates4 total Passed3 / 4 StatusBlocked
Answer Relevancy0.82 ✓ pass
Format Consistency98% ✓ pass
Stability σ0.03 ✓ pass
Faithfulness0.61 ✗ FAIL
Этапы внедрения

От первого прогона до полноценного CI gate.

Внедрение идёт поэтапно — не нужно останавливать разработку. Каждый этап добавляет ценность самостоятельно.

1

Определяем критичные сценарии

2

Выбираем метрики и пороги

3

Подключаем тесты к pipeline

4

Настраиваем алерты и историю прогонов

Quality Gates

Что именно блокирует деплой.

Quality gate — это пороговое условие по метрике, которое должно быть выполнено для прохождения CI. Если хотя бы один gate не пройден — pipeline завершается с ненулевым кодом, и деплой не происходит.

Пороги выставляются индивидуально: жёсткий блокирующий порог и мягкий warn-порог, при котором CI проходит, но команда получает уведомление. Это позволяет отловить деградацию до того, как она станет критической.

01Задайте метрики и пороги в конфиге профиля.
02Добавьте шаг deepthroath run в .github/workflows или .gitlab-ci.yml.
03При провале gate — pipeline завершается с кодом 1, деплой блокируется.
Пример конфига quality gatesdeepthroath.yml

faithfulness block

Порог ≥ 0.80. При значении ниже — деплой заблокирован.

answer_relevancy block

Порог ≥ 0.70. Контролирует соответствие ответа вопросу.

format_consistency warn

Порог ≥ 0.95. При значении ниже — предупреждение, деплой не блокируется.

stability_sigma block

Порог σ ≤ 0.05. Высокий разброс — нестабильный промпт.

Deliverables

Что вы получаете после внедрения.

01

Quality gates для релизов

02

CLI/скрипты для CI

03

Набор smoke и regression тестов

04

Отчеты для команды продукта

FAQ

Частые вопросы.

Вопросы и ответы

Сколько времени занимает внедрение AI QA в существующий CI/CD?

Базовая интеграция с GitHub Actions или GitLab CI занимает 1–2 рабочих дня: подключение endpoint, конфигурация профиля метрик, первый прогон на тестовом датасете. Полноценный quality gate с настроенными порогами и regression suite готов за 1–2 недели.

Как избежать ложных срабатываний (false positives) в quality gate?

Ключ — правильная калибровка порогов на историческом датасете. DeepThroat показывает распределение баллов по каждой метрике, что позволяет выставить пороги так, чтобы блокировать реальные регрессии, но не флагировать допустимую вариативность. Дополнительно можно настроить warn-зону между мягким и жёстким порогом.

Какие метрики важнее всего контролировать в CI/CD?

Минимальный набор: Faithfulness (галлюцинации), Answer Relevancy (соответствие запросу) и stability score (разброс при повторных прогонах). Для продуктов с форматированным выводом добавьте format consistency. Для RAG — Context Precision и Recall.

Нужен ли отдельный staging-стенд или можно тестировать на продакшн-модели?

Рекомендуется staging: это изолирует тесты от реального трафика и позволяет тестировать новые версии промптов без риска. Если staging нет — можно тестировать на продакшн-endpoint, но с ограничением по rate limit и отдельным API-ключом для CI.

Следующий шаг

Настройте первый quality gate за один день.

Расскажите про ваш стек и CI-систему — покажем как интегрировать и выставить пороги под ваш продукт.

Обсудить задачу
Качество ответов

Нужны метрики для CI gate?

Сначала оцените базовое качество ответов — получите данные для настройки порогов и первого датасета.

Анализ качества AI

Связанные услуги

DeepThroat: red teaming LLM-систем

Проводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.

deepteamred teaming llmjailbreak test

Анализ качества ответов AI и LLM

Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.

анализ качества ответов ииоценка ответов llmllm quality assurance