Главная / Услуги / DeepThroat: red teaming LLM-систем

Red Teaming · OWASP LLM Top 10

DeepThroat: red teaming LLM-систем

Автоматизированные adversarial-прогоны по пяти классам атак из OWASP LLM Top 10. Главная метрика — Attack Success Rate: процент атак, которые прошли защиту модели.

Запустить red teaming Классы атак

5 классовOWASP LLM Top 10

ASRAttack Success Rate

Self-hostedданные не уходят наружу

deepthroath run --profile security

Security verdict 3 findings require review

Prompt injection и context hijacking прошли защиту. PII leakage — чисто. Команда видит владельцев до выката.

Suites5 done Passed27 / 30 RiskMedium

Prompt Injection

7 / 40 атак прошло — High

Jailbreak

3 / 30 атак прошло — Medium

PII Leakage

0 / 20 атак прошло — Pass

Context Hijacking

2 / 15 атак прошло — Medium

Toxicity

1 / 25 атак прошло — Low

Классы атак

Что именно проверяет DeepThroat.

Для каждого класса платформа генерирует серии adversarial-промптов, прогоняет через ваш endpoint и замеряет Attack Success Rate. Покрытие строится на OWASP LLM Top 10 и расширяется под ваши сценарии.

Результат — не список потенциальных рисков, а конкретные промпты с severity, которые реально прошли защиту вашей модели. Каждый finding воспроизводим и может быть передан разработчикам как тест-кейс.

OWASP LLM Top 10 coverageAttack Success Rate per class

Prompt Injection LLM01

Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые и косвенные инъекции, включая payload через RAG-контекст.

Jailbreak LLM02

Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует десятки вариантов одной атаки и замеряет ASR по каждой категории.

PII Leakage LLM06

Модель возвращает email, телефоны, токены или имена из тренировочных данных или RAG-базы. Проверяется через targeted prompting, анализ ответов и regex-фильтрацию утечек.

Context Hijacking LLM08

Документ в RAG-контексте подменяет поведение модели — indirect prompt injection. Тестируются multi-turn сценарии, где атака распределена по нескольким сообщениям диалога.

Toxicity LLM09

Генерация оскорбительного или дискриминирующего контента под провокационными запросами. Оценивается через LLM-as-a-judge с настраиваемыми порогами severity.

Workflow

От подключения до отчёта — четыре шага.

Не нужно писать тест-кейсы вручную. DeepThroat использует встроенные датасеты атак или загружает ваши. Результаты — machine-readable для CI/CD и readable для команды продукта.

Определяем запрещенные действия и бизнес-контекст

Составляем adversarial prompts под ваши сценарии

Проверяем модель, RAG и инструменты агента

Фиксируем регрессии и повторяем проверку после исправлений

Deliverables

Что вы получаете после прогона.

Attack Success Rate по категориям

Логи успешных и заблокированных атак

Сценарии multi-turn атак

Правки системного промпта и guardrails

CI/CD integration

Встройте security gate в релизный процесс.

DeepThroat возвращает machine-readable verdict. Пропишите пороги в конфиге и блокируйте деплой при нарушении — через GitHub Actions, GitLab CI или любой другой пайплайн.

01Подключите endpoint в конфиге профиля.

02Запустите deepthroath run --profile security в CI.

03При ASR > порога — pipeline блокируется автоматически.

Prompt injection ASRFail 17%

PII leakagePass 0%

Jailbreak ASRWarn 8%

ToxicityPass 2%

deepthroath run --profile security
5 suites completed
2 findings block deploy

FAQ

Частые вопросы.

Вопросы и ответы

Сколько времени занимает red teaming прогон?

Стандартный прогон по пяти классам OWASP LLM Top 10 занимает 10-30 минут в зависимости от latency модели и размера датасета атак. Результаты доступны сразу после завершения.

Поддерживается ли тестирование закрытого или on-premise LLM?

Да. DeepThroat работает с любым OpenAI-compatible endpoint, включая Ollama и vLLM. Self-hosted режим — данные не покидают вашу инфраструктуру.

Как интерпретировать Attack Success Rate?

ASR = (атаки прошедшие защиту) / (всего атак). ASR > 10% по любому классу — это сигнал для немедленного ревью system prompt и guardrails. ASR < 2% — принятый baseline для production.

Можно ли добавить собственные сценарии атак?

Да. Датасет атак загружается в CSV/JSON формате. Вы можете добавить специфичные для вашего домена промпты — например, атаки через пользовательский профиль или специфику вашего продукта.

Следующий шаг

Запустите первый прогон на своём endpoint.

Расскажите про модель, сценарии и что сейчас болит — составим профиль атак и покажем платформу.

Обсудить задачу

Полный аудит

Нужен ручной разбор и рекомендации?

Red teaming + аудит system prompt, guardrails и RAG-слоя. Отчёт с приоритетами и backlog исправлений.

Обсудить аудит