评估数据集

评估数据集通常包含您要评估的模型回答、用于生成回答的输入数据，还可能包含标准答案回答。此表提供了构建评估数据集所需的输入。

输入类型	输入字段内容
Response	需要评估的 LLM 推理回答。
说明	发送到 LLM 的推理说明和提示。
context	LLM 回答所基于的上下文。对于摘要任务，这是 LLM 总结的文本。对于问答任务，这是为 LLM 提供打开图书问题的背景信息。
参考	与 LLM 回答进行比较的标准答案。
baseline_response	基准 LLM 推理回答，用于在并排评估中比较 LLM 回答。这也称为基准回答。

评估数据集所需的输入因您选择的评估范式和指标以及任务本身的性质而异。如需查看指标及其预期输入的完整列表，请参阅任务和指标。

如何使用评估数据集

准备好评估数据集后，您可以在快速评估 Python SDK 中或通过评估流水线服务使用该数据集。您可以从 Cloud Storage 等位置导入数据集。Vertex AI 还提供了一些预先处理的 Kaggle 数据集，用于在自定义数据集可供使用之前设置评估工作流。您可以在执行评估中找到有关如何使用数据集的详细信息。

使用自定义数据集

生成式 AI 评估服务可以通过多种方式使用您的评估数据集。我们的 Python SDK 和流水线对评估数据集输入格式有不同的要求。如需了解如何在 Python SDK 和 Pipelines 中导入数据集，请参阅评估示例。

生成式 AI 评估服务特性	支持的数据集位置和格式	必需输入
Python SDK	存储在 Cloud Storage 中的 JSONL 或 CSV 文件 BigQuery 表 Pandas DataFrame	格式应与根据任务和指标选择的指标输入要求一致。以下列可能是必需的： `response` `reference` `instruction` `context`
基于计算的流水线	存储在 Cloud Storage 中的 JSONL 文件	`input_text` `output_text`
AutoSxS 流水线	存储在 Cloud Storage 中的 JSONL 文件 BigQuery 表	该格式应与每个模型进行推理所需的内容一致，并且自动评分器应为评估任务使用这些参数。输入参数包括以下内容： ID 列输入文本以进行推理或预先生成的预测自动评分器提示参数

使用 Kaggle 数据集

如果您的自定义数据集尚未准备好用于生成式 AI 评估服务，Vertex AI 会提供预处理的 Kaggle 数据集。这些数据集支持 text generation、summarization 和 question answering 等任务。数据集将转换为可供 Python SDK 和 Pipelines 使用的以下格式。

Kaggle 数据集	支持的任务	预处理的数据集	Cloud Storage 网址	支持的功能
BillSum	`General text generation` `Summarization`	summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl	gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl	基于计算的流水线 AutoSxS 流水线快速评估 Python SDK
医疗转写记录	文本分类	medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl	gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl	基于计算的流水线 AutoSxS 流水线

使用数据集时，您可以先对一小部分行进行采样，以测试工作流，而不是使用整个数据集。表中列出的数据集启用了请求者付款者，这意味着它们会产生数据处理费用和网络使用费。

后续步骤

试用评估示例笔记本。
了解生成式 AI 评估。
了解如何利用快速评估进行在线评估。
了解如何使用 AutoSxS 流水线进行基于模型的成对评估。
了解基于计算的评估流水线。
了解如何调整基础模型。