Prompt Injection
7 / 40 атак прошло — High
Автоматизированные adversarial-прогоны по пяти классам атак из OWASP LLM Top 10. Главная метрика — Attack Success Rate: процент атак, которые прошли защиту модели.
Prompt injection и context hijacking прошли защиту. PII leakage — чисто. Команда видит владельцев до выката.
7 / 40 атак прошло — High
3 / 30 атак прошло — Medium
0 / 20 атак прошло — Pass
2 / 15 атак прошло — Medium
1 / 25 атак прошло — Low
Для каждого класса платформа генерирует серии adversarial-промптов, прогоняет через ваш endpoint и замеряет Attack Success Rate. Покрытие строится на OWASP LLM Top 10 и расширяется под ваши сценарии.
Результат — не список потенциальных рисков, а конкретные промпты с severity, которые реально прошли защиту вашей модели. Каждый finding воспроизводим и может быть передан разработчикам как тест-кейс.
Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые и косвенные инъекции, включая payload через RAG-контекст.
Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует десятки вариантов одной атаки и замеряет ASR по каждой категории.
Модель возвращает email, телефоны, токены или имена из тренировочных данных или RAG-базы. Проверяется через targeted prompting, анализ ответов и regex-фильтрацию утечек.
Документ в RAG-контексте подменяет поведение модели — indirect prompt injection. Тестируются multi-turn сценарии, где атака распределена по нескольким сообщениям диалога.
Генерация оскорбительного или дискриминирующего контента под провокационными запросами. Оценивается через LLM-as-a-judge с настраиваемыми порогами severity.
Не нужно писать тест-кейсы вручную. DeepThroat использует встроенные датасеты атак или загружает ваши. Результаты — machine-readable для CI/CD и readable для команды продукта.
Определяем запрещенные действия и бизнес-контекст
Составляем adversarial prompts под ваши сценарии
Проверяем модель, RAG и инструменты агента
Фиксируем регрессии и повторяем проверку после исправлений
Attack Success Rate по категориям
Логи успешных и заблокированных атак
Сценарии multi-turn атак
Правки системного промпта и guardrails
DeepThroat возвращает machine-readable verdict. Пропишите пороги в конфиге и блокируйте деплой при нарушении — через GitHub Actions, GitLab CI или любой другой пайплайн.
deepthroath run --profile security 5 suites completed 2 findings block deploy
Стандартный прогон по пяти классам OWASP LLM Top 10 занимает 10-30 минут в зависимости от latency модели и размера датасета атак. Результаты доступны сразу после завершения.
Да. DeepThroat работает с любым OpenAI-compatible endpoint, включая Ollama и vLLM. Self-hosted режим — данные не покидают вашу инфраструктуру.
ASR = (атаки прошедшие защиту) / (всего атак). ASR > 10% по любому классу — это сигнал для немедленного ревью system prompt и guardrails. ASR < 2% — принятый baseline для production.
Да. Датасет атак загружается в CSV/JSON формате. Вы можете добавить специфичные для вашего домена промпты — например, атаки через пользовательский профиль или специфику вашего продукта.
Расскажите про модель, сценарии и что сейчас болит — составим профиль атак и покажем платформу.
Обсудить задачуRed teaming + аудит system prompt, guardrails и RAG-слоя. Отчёт с приоритетами и backlog исправлений.
Обсудить аудитИзмеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.
Настраиваем DeepEval-метрики: Answer Relevancy, Faithfulness, Contextual Precision и Contextual Recall.
Встраиваем проверки качества и безопасности LLM в релизный процесс, чтобы ловить регрессии до пользователей.
Опишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.