Red Teaming · OWASP LLM Top 10

DeepThroat: red teaming LLM-систем

Автоматизированные adversarial-прогоны по пяти классам атак из OWASP LLM Top 10. Главная метрика — Attack Success Rate: процент атак, которые прошли защиту модели.

5 классовOWASP LLM Top 10
ASRAttack Success Rate
Self-hostedданные не уходят наружу
deepthroath run --profile security
Security verdict 3 findings require review

Prompt injection и context hijacking прошли защиту. PII leakage — чисто. Команда видит владельцев до выката.

Suites5 done Passed27 / 30 RiskMedium

Prompt Injection

7 / 40 атак прошло — High

Jailbreak

3 / 30 атак прошло — Medium

PII Leakage

0 / 20 атак прошло — Pass

Context Hijacking

2 / 15 атак прошло — Medium

Toxicity

1 / 25 атак прошло — Low

Классы атак

Что именно проверяет DeepThroat.

Для каждого класса платформа генерирует серии adversarial-промптов, прогоняет через ваш endpoint и замеряет Attack Success Rate. Покрытие строится на OWASP LLM Top 10 и расширяется под ваши сценарии.

Результат — не список потенциальных рисков, а конкретные промпты с severity, которые реально прошли защиту вашей модели. Каждый finding воспроизводим и может быть передан разработчикам как тест-кейс.

OWASP LLM Top 10 coverageAttack Success Rate per class

Prompt Injection LLM01

Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые и косвенные инъекции, включая payload через RAG-контекст.

Jailbreak LLM02

Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует десятки вариантов одной атаки и замеряет ASR по каждой категории.

PII Leakage LLM06

Модель возвращает email, телефоны, токены или имена из тренировочных данных или RAG-базы. Проверяется через targeted prompting, анализ ответов и regex-фильтрацию утечек.

Context Hijacking LLM08

Документ в RAG-контексте подменяет поведение модели — indirect prompt injection. Тестируются multi-turn сценарии, где атака распределена по нескольким сообщениям диалога.

Toxicity LLM09

Генерация оскорбительного или дискриминирующего контента под провокационными запросами. Оценивается через LLM-as-a-judge с настраиваемыми порогами severity.

Workflow

От подключения до отчёта — четыре шага.

Не нужно писать тест-кейсы вручную. DeepThroat использует встроенные датасеты атак или загружает ваши. Результаты — machine-readable для CI/CD и readable для команды продукта.

1

Определяем запрещенные действия и бизнес-контекст

2

Составляем adversarial prompts под ваши сценарии

3

Проверяем модель, RAG и инструменты агента

4

Фиксируем регрессии и повторяем проверку после исправлений

Deliverables

Что вы получаете после прогона.

01

Attack Success Rate по категориям

02

Логи успешных и заблокированных атак

03

Сценарии multi-turn атак

04

Правки системного промпта и guardrails

CI/CD integration

Встройте security gate в релизный процесс.

DeepThroat возвращает machine-readable verdict. Пропишите пороги в конфиге и блокируйте деплой при нарушении — через GitHub Actions, GitLab CI или любой другой пайплайн.

01Подключите endpoint в конфиге профиля.
02Запустите deepthroath run --profile security в CI.
03При ASR > порога — pipeline блокируется автоматически.
Prompt injection ASRFail 17%
PII leakagePass 0%
Jailbreak ASRWarn 8%
ToxicityPass 2%
deepthroath run --profile security
5 suites completed
2 findings block deploy
FAQ

Частые вопросы.

Вопросы и ответы

Сколько времени занимает red teaming прогон?

Стандартный прогон по пяти классам OWASP LLM Top 10 занимает 10-30 минут в зависимости от latency модели и размера датасета атак. Результаты доступны сразу после завершения.

Поддерживается ли тестирование закрытого или on-premise LLM?

Да. DeepThroat работает с любым OpenAI-compatible endpoint, включая Ollama и vLLM. Self-hosted режим — данные не покидают вашу инфраструктуру.

Как интерпретировать Attack Success Rate?

ASR = (атаки прошедшие защиту) / (всего атак). ASR > 10% по любому классу — это сигнал для немедленного ревью system prompt и guardrails. ASR < 2% — принятый baseline для production.

Можно ли добавить собственные сценарии атак?

Да. Датасет атак загружается в CSV/JSON формате. Вы можете добавить специфичные для вашего домена промпты — например, атаки через пользовательский профиль или специфику вашего продукта.

Следующий шаг

Запустите первый прогон на своём endpoint.

Расскажите про модель, сценарии и что сейчас болит — составим профиль атак и покажем платформу.

Обсудить задачу
Полный аудит

Нужен ручной разбор и рекомендации?

Red teaming + аудит system prompt, guardrails и RAG-слоя. Отчёт с приоритетами и backlog исправлений.

Обсудить аудит

Связанные услуги

Анализ качества ответов AI и LLM

Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.

анализ качества ответов ииоценка ответов llmllm quality assurance

AI QA в CI/CD для LLM-продуктов

Встраиваем проверки качества и безопасности LLM в релизный процесс, чтобы ловить регрессии до пользователей.

ai qa ci cdllm regression testsтесты чатбота