Golden Dataset · LLM Evaluation

Датасеты и эталоны для оценки LLM

Создаём датасеты с эталонными ответами, граничными кейсами и regression-сценариями для оценки LLM. Структурированный golden set — основа воспроизводимой оценки качества и CI/CD gate.

Golden datasetэталонные ответы
Edge casesграничные и сложные кейсы
Версионированиеgit-история изменений
golden-dataset-v2.jsonl — 124 records
question

Текст вопроса из реальных логов

expected_answer

Эталонный ответ, верифицированный экспертом

context

Релевантные чанки из базы знаний (для RAG)

tags

Категория, сложность, тип кейса

Dataset stats 124 кейса, 3 категории

Quality: 68 кейсов · Safety: 31 кейс · Regression: 25 кейсов. Покрытие домена: 87%.

Records124 Verified119 / 124 Coverage87%
Типы датасетов

Три типа датасетов под разные задачи.

Один датасет не закрывает все потребности. Хорошо организованный evaluation suite состоит из нескольких специализированных датасетов с разными целями и порогами оценки.

Quality DatasetОсновной тип

Вопросы с эталонными ответами для оценки релевантности, полноты и точности. Основа для LLM-as-a-judge оценки и CI/CD quality gate.

Safety DatasetБезопасность

Граничные кейсы, джейлбрейки, prompt injection и токсичные запросы. Используется в red teaming и как regression suite для безопасности.

Regression DatasetРегрессия

Исторические кейсы, на которых раньше была регрессия. Фиксирует исправленные баги и не даёт им вернуться при изменении промпта или модели.

Процесс создания

От логов до верифицированного golden set.

Первый шаг — сбор реальных запросов из логов продукта. Синтетические вопросы дополняют реальные, закрывая пробелы в покрытии домена. Каждый кейс получает эталонный ответ и проходит верификацию экспертом.

Итог — JSONL-файл с историей в git. Каждое изменение датасета трекается: видно кто добавил кейс, почему и как это повлияло на метрики оценки при следующем прогоне.

01Собираем реальные запросы из логов и дополняем синтетикой.
02Генерируем кандидатов эталонных ответов через LLM.
03Эксперт верифицирует и корректирует — сохраняем в JSONL.
Структура JSONL-записиgolden-dataset.jsonl

question required

Текст вопроса. Берётся из реальных логов или генерируется синтетически.

expected_answer required

Эталонный ответ, верифицированный доменным экспертом.

context optional

Список чанков для RAG-оценки. Нужен для Faithfulness и Precision.

tags optional

Массив тегов: категория (quality/safety/regression), сложность, тип кейса.

Deliverables

Что вы получаете в результате.

01

Golden dataset

02

Негативные и edge-case сценарии

03

Разметка критериев

04

Версионирование и правила обновления

Процесс

От первой встречи до готового датасета.

1

Собираем реальные вопросы и логи

2

Кластеризуем интенты и риски

3

Пишем эталонные ожидания

4

Подключаем датасет к DeepEval/RAGAS/CI

FAQ

Частые вопросы.

Вопросы и ответы

Какой минимальный размер датасета нужен для достоверной оценки?

Для базовой оценки достаточно 50–80 вопросов с эталонами. Для статистически надёжных выводов — 150–200. Для CI/CD regression suite оптимально 100–150 кейсов: меньше — быстрее прогон, больше — выше покрытие. Важнее размера — репрезентативность: кейсы должны покрывать все типичные сценарии и граничные ситуации.

Кто делает разметку — нужны ли доменные эксперты?

Для технических доменов — да, нужен хотя бы один эксперт для валидации эталонных ответов. DeepThroat предоставляет инструмент разметки: генерируем кандидатов через LLM, эксперт проверяет и корректирует. Это сокращает время разметки в 3–5 раз по сравнению с разметкой с нуля.

Как часто нужно обновлять датасет?

Датасет нужно обновлять при: (1) изменении домена или продукта, (2) появлении новых типов запросов в логах, (3) обнаружении паттернов ошибок, которых нет в текущем датасете. Рекомендуется аудит датасета раз в квартал и добавление новых кейсов при каждом значимом релизе.

В каком формате хранятся датасеты и как версионировать?

Датасеты хранятся в JSONL: каждая строка содержит question, expected_answer, context (опционально) и теги. Версионирование через git — каждый файл датасета в репозитории с историей изменений. DeepThroat поддерживает импорт из CSV, JSONL и JSON-массивов.

Следующий шаг

Создайте golden dataset для вашего продукта.

Расскажите про домен, типичные запросы и текущие проблемы с качеством — предложим структуру датасета и план разметки.

Обсудить задачу
Следующий шаг

Есть датасет — пора оценить качество.

Запустите оценку ответов LLM по шести метрикам и получите JSON-отчёт с вердиктом по каждому вопросу.

Анализ качества AI

Связанные услуги

DeepThroat: red teaming LLM-систем

Проводим adversarial testing: jailbreak, role-play bypass, context manipulation, токсичность, извлечение PII и обход политик.

deepteamred teaming llmjailbreak test

Анализ качества ответов AI и LLM

Измеряем релевантность, полноту, фактическую точность, тональность, устойчивость формата и стабильность ответов.

анализ качества ответов ииоценка ответов llmllm quality assurance