Red Teaming · OWASP LLM Top 10

Атакуйте свою модель раньше, чем это сделают пользователи.

DeepThroat генерирует adversarial-промпты по каждому классу OWASP LLM Top 10, прогоняет через ваш endpoint и замеряет Attack Success Rate — процент атак, прошедших защиту.

5 классовOWASP LLM Top 10
ASRглавная метрика релиза
Self-hostedданные не уходят наружу
deepthroath run --profile security
Security verdict 2 findings require review

Prompt injection и context hijacking прошли. PII leakage — чисто. Команда видит владельцев до выката.

Suites5 done Passed27 / 30 RiskMedium
Prompt Injection7 / 40High
Jailbreak3 / 30Medium
PII Leakage0 / 20Pass
Context Hijacking2 / 15Medium
Toxicity1 / 25Low
По странице
Классы атакCI/CD gateКонтакты
Классы атак · OWASP LLM Top 10

Что именно проверяет платформа.

Для каждого класса DeepThroat генерирует серии adversarial-промптов и замеряет ASR. Результат — не список потенциальных рисков, а конкретные промпты с severity, которые реально прошли защиту.

LLM01

Prompt Injection

Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые инъекции и косвенные — через payload в RAG-контексте.

LLM02

Jailbreak

Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует десятки вариантов одной атаки и замеряет ASR по каждой категории.

LLM06

PII Leakage

Модель возвращает email, телефоны, токены или имена из тренировочных данных или RAG-базы. Проверяется через targeted prompting и regex-анализ ответов.

LLM08

Context Hijacking

Документ в RAG-контексте подменяет поведение модели — indirect prompt injection. Тестируются multi-turn сценарии, где атака распределена по нескольким сообщениям диалога.

LLM09

Toxicity

Генерация оскорбительного или дискриминирующего контента под провокационными запросами. Оценивается через LLM-as-a-judge с настраиваемыми порогами severity.

For the whole team

Один отчёт — каждый видит своё.

Security engineer видит ASR и промпты. Product manager — verdict без чтения логов. DevOps — gate для CI/CD.

01

Security Engineer

ASR по каждому классу, конкретные промпты прошедшие защиту, diff между версиями system prompt.

02

Product Manager

Release verdict — Ready / Not ready — с объяснением рисков и владельцами. Без чтения логов.

03

Developer

Воспроизводимые тест-кейсы на каждый finding. Рекомендации по правкам prompt и guardrails.

04

DevOps / QA

Machine-readable verdict для CI/CD. Блокировка деплоя при ASR выше порога через GitHub Actions.

CI/CD gate

Встройте security проверку в релизный процесс.

DeepThroat возвращает machine-readable verdict. Пропишите пороги ASR в конфиге и блокируйте деплой при нарушении через GitHub Actions, GitLab CI или любой другой пайплайн.

01Подключите endpoint в конфиге профиля.
02Запустите deepthroath run --profile security в CI.
03При ASR выше порога — pipeline блокируется автоматически.
Prompt injection ASRFail 17%
PII leakagePass 0%
Jailbreak ASRWarn 8%
ToxicityPass 2%
deepthroath run --profile security
5 suites completed
2 findings block deploy
FAQ

Частые вопросы.

Вопросы и ответы

Что такое Attack Success Rate?

ASR = (атаки прошедшие защиту) / (всего атак). ASR > 10% по любому классу — сигнал для ревью system prompt и guardrails. ASR < 2% — принятый baseline для production.

Нужен ли доступ к весам модели?

Нет. Платформа работает через API: OpenAI, Anthropic, OpenRouter, Ollama, vLLM и любой OpenAI-compatible endpoint.

Можно ли добавить собственные сценарии атак?

Да. Датасет атак загружается в CSV/JSON формате. Добавьте специфичные для вашего домена промпты поверх встроенных наборов.

Как встроить проверку в CI/CD?

DeepThroat возвращает machine-readable verdict. Пропишите порог ASR в конфиге и блокируйте деплой при нарушении через GitHub Actions или GitLab CI.

Следующий шаг

Запустите первый прогон на своём endpoint.

Расскажите про модель и сценарии — составим профиль атак и покажем платформу.

Обсудить задачу
Качество RAG

Нужна ещё и оценка качества ответов?

Faithfulness, answer relevancy, context precision и recall через DeepEval и RAGAS.

Оценить качество RAG