question required
Текст вопроса. Берётся из реальных логов или генерируется синтетически.
Создаём датасеты с эталонными ответами, граничными кейсами и regression-сценариями для оценки LLM. Структурированный golden set — основа воспроизводимой оценки качества и CI/CD gate.
Текст вопроса из реальных логов
Эталонный ответ, верифицированный экспертом
Релевантные чанки из базы знаний (для RAG)
Категория, сложность, тип кейса
Quality: 68 кейсов · Safety: 31 кейс · Regression: 25 кейсов. Покрытие домена: 87%.
Один датасет не закрывает все потребности. Хорошо организованный evaluation suite состоит из нескольких специализированных датасетов с разными целями и порогами оценки.
Вопросы с эталонными ответами для оценки релевантности, полноты и точности. Основа для LLM-as-a-judge оценки и CI/CD quality gate.
Граничные кейсы, джейлбрейки, prompt injection и токсичные запросы. Используется в red teaming и как regression suite для безопасности.
Исторические кейсы, на которых раньше была регрессия. Фиксирует исправленные баги и не даёт им вернуться при изменении промпта или модели.
Первый шаг — сбор реальных запросов из логов продукта. Синтетические вопросы дополняют реальные, закрывая пробелы в покрытии домена. Каждый кейс получает эталонный ответ и проходит верификацию экспертом.
Итог — JSONL-файл с историей в git. Каждое изменение датасета трекается: видно кто добавил кейс, почему и как это повлияло на метрики оценки при следующем прогоне.
Текст вопроса. Берётся из реальных логов или генерируется синтетически.
Эталонный ответ, верифицированный доменным экспертом.
Список чанков для RAG-оценки. Нужен для Faithfulness и Precision.
Массив тегов: категория (quality/safety/regression), сложность, тип кейса.
Golden dataset
Негативные и edge-case сценарии
Разметка критериев
Версионирование и правила обновления
Собираем реальные вопросы и логи
Кластеризуем интенты и риски
Пишем эталонные ожидания
Подключаем датасет к DeepEval/RAGAS/CI
Для базовой оценки достаточно 50–80 вопросов с эталонами. Для статистически надёжных выводов — 150–200. Для CI/CD regression suite оптимально 100–150 кейсов: меньше — быстрее прогон, больше — выше покрытие. Важнее размера — репрезентативность: кейсы должны покрывать все типичные сценарии и граничные ситуации.
Для технических доменов — да, нужен хотя бы один эксперт для валидации эталонных ответов. DeepThroat предоставляет инструмент разметки: генерируем кандидатов через LLM, эксперт проверяет и корректирует. Это сокращает время разметки в 3–5 раз по сравнению с разметкой с нуля.
Датасет нужно обновлять при: (1) изменении домена или продукта, (2) появлении новых типов запросов в логах, (3) обнаружении паттернов ошибок, которых нет в текущем датасете. Рекомендуется аудит датасета раз в квартал и добавление новых кейсов при каждом значимом релизе.
Датасеты хранятся в JSONL: каждая строка содержит question, expected_answer, context (опционально) и теги. Версионирование через git — каждый файл датасета в репозитории с историей изменений. DeepThroat поддерживает импорт из CSV, JSONL и JSON-массивов.
Расскажите про домен, типичные запросы и текущие проблемы с качеством — предложим структуру датасета и план разметки.
Обсудить задачуЗапустите оценку ответов LLM по шести метрикам и получите JSON-отчёт с вердиктом по каждому вопросу.
Анализ качества AIПроводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.
Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.
Настраиваем DeepEval-метрики: Answer Relevancy, Faithfulness, Contextual Precision и Contextual Recall.
Опишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.