Prompt Injection
Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые инъекции и косвенные — через payload в RAG-контексте.
DeepThroat генерирует adversarial-промпты по каждому классу OWASP LLM Top 10, прогоняет через ваш endpoint и замеряет Attack Success Rate — процент атак, прошедших защиту.
Prompt injection и context hijacking прошли. PII leakage — чисто. Команда видит владельцев до выката.
Для каждого класса DeepThroat генерирует серии adversarial-промптов и замеряет ASR. Результат — не список потенциальных рисков, а конкретные промпты с severity, которые реально прошли защиту.
Скрытые инструкции в пользовательском вводе заставляют модель нарушать системный промпт или раскрывать внутренние данные. DeepThroat тестирует прямые инъекции и косвенные — через payload в RAG-контексте.
Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует десятки вариантов одной атаки и замеряет ASR по каждой категории.
Модель возвращает email, телефоны, токены или имена из тренировочных данных или RAG-базы. Проверяется через targeted prompting и regex-анализ ответов.
Документ в RAG-контексте подменяет поведение модели — indirect prompt injection. Тестируются multi-turn сценарии, где атака распределена по нескольким сообщениям диалога.
Генерация оскорбительного или дискриминирующего контента под провокационными запросами. Оценивается через LLM-as-a-judge с настраиваемыми порогами severity.
Security engineer видит ASR и промпты. Product manager — verdict без чтения логов. DevOps — gate для CI/CD.
ASR по каждому классу, конкретные промпты прошедшие защиту, diff между версиями system prompt.
Release verdict — Ready / Not ready — с объяснением рисков и владельцами. Без чтения логов.
Воспроизводимые тест-кейсы на каждый finding. Рекомендации по правкам prompt и guardrails.
Machine-readable verdict для CI/CD. Блокировка деплоя при ASR выше порога через GitHub Actions.
DeepThroat возвращает machine-readable verdict. Пропишите пороги ASR в конфиге и блокируйте деплой при нарушении через GitHub Actions, GitLab CI или любой другой пайплайн.
deepthroath run --profile security 5 suites completed 2 findings block deploy
ASR = (атаки прошедшие защиту) / (всего атак). ASR > 10% по любому классу — сигнал для ревью system prompt и guardrails. ASR < 2% — принятый baseline для production.
Нет. Платформа работает через API: OpenAI, Anthropic, OpenRouter, Ollama, vLLM и любой OpenAI-compatible endpoint.
Да. Датасет атак загружается в CSV/JSON формате. Добавьте специфичные для вашего домена промпты поверх встроенных наборов.
DeepThroat возвращает machine-readable verdict. Пропишите порог ASR в конфиге и блокируйте деплой при нарушении через GitHub Actions или GitLab CI.
Расскажите про модель и сценарии — составим профиль атак и покажем платформу.
Обсудить задачуFaithfulness, answer relevancy, context precision и recall через DeepEval и RAGAS.
Оценить качество RAGОпишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.