AutoSxS

このページでは、評価パイプラインサービスを通じて提供されるツールである AutoSxS を使用して、ペアワイズモデルベースの評価を行う方法について説明します。Vertex AI API または Vertex AI SDK for Python を介して AutoSxS を使用する方法について説明します。

AutoSxS

Automatic side-by-side（AutoSxS）は、評価パイプラインサービスを通じて実行されるペアワイズモデルベースの評価ツールです。AutoSxS を使用すると、Vertex AI Model Registry 内の生成 AI モデルまたは事前に生成された予測のパフォーマンスを評価できます。これにより、Vertex AI の基盤モデル、調整された生成 AI モデル、サードパーティの言語モデルをサポートできます。AutoSxS は自動評価を使用して、プロンプトへのレスポンスに優れたモデルを決定します。オンデマンドで利用可能で、人間の評価者に匹敵するパフォーマンスで言語モデルを評価します。

自動評価

大まかに言えば、この図は AutoSxS がモデル A と B の予測を 3 番目のモデルである自動評価と比較する方法を示しています。

AutoSxS の仕組みの概要

モデル A と B は入力プロンプトを受け取り、各モデルが自動評価に送信されるレスポンスを生成します。人間の評価者と同様に、自動評価は元の推論プロンプトでモデルレスポンスの品質を判断する言語モデルです。AutoSxS では、自動評価が一連の基準を使用して、推論命令に応じた 2 つのモデルレスポンスの品質を比較します。この基準を使用して、モデル A の結果とモデル B の結果を比較して、パフォーマンスが最も高いモデルを判断します。自動評価はレスポンスの選択を集約指標として出力し、各例の選択の説明と信頼スコアを出力します。詳細については、判定テーブルをご覧ください。

サポートされているモデル

AutoSxS では、事前に生成された予測が提供された場合のモデルの評価がサポートされています。AutoSxS は、Vertex AI でのバッチ予測をサポートする Vertex AI Model Registry 内の任意のモデルに対するレスポンスの自動生成もサポートしています。

テキストモデルが Vertex AI Model Registry でサポートされていない場合、AutoSxS は JSONL として Cloud Storage または BigQuery テーブルに格納されている事前に生成された予測も受け入れます。料金については、テキストの生成をご覧ください。

サポートされるタスクと基準

AutoSxS では、要約タスクと質問応答タスクのモデルの評価をサポートしています。評価基準はタスクごとに事前に定義されているため、言語評価がより客観的で、レスポンス品質が向上します。

基準はタスク別に表示されています。

要約

summarization タスクの入力トークンの上限は 4,096 です。

summarization の評価基準は次のとおりです。

条件
1. 指示に従っている	モデルのレスポンスがプロンプトからの指示をどの程度理解しているか。
2. 根拠づけ	レスポンスには、推論コンテキストと推論命令からの情報のみが含まれているか。
3. 包括的	モデルは、要約でキーとなる詳細をどの程度キャプチャしているか。
4. 概要	要約が冗長でないか。過度に飾り立てた表現が含まれていないか。過度に簡潔すぎないか。

質問応答

question_answering タスクの入力トークンの上限は 4,096 です。

question_answering の評価基準は次のとおりです。

条件
1. 質問に十分に回答している	答えが完全に質問に対応している。
2. 根拠づけ	レスポンスには、命令コンテキストと推論命令からの情報のみが含まれているか。
3. 関連性	回答の内容は質問と関連しているか。
4. 包括的	モデルは、質問でキーとなる詳細をどの程度キャプチャしているか。

AutoSxS の評価データセットを準備する

このセクションでは、AutoSxS 評価データセットで提供する必要があるデータと、データセット構築のベストプラクティスについて詳しく説明します。この例は、本番環境においてモデルが遭遇する可能性のある実際の入力を反映し、実際のモデルの動作を最適に対比する必要があります。

データセットのフォーマット

AutoSxS は、柔軟なスキーマを持つ単一の評価データセットを受け入れます。データセットは、BigQuery テーブルか、Cloud Storage の JSON Lines として保存されます。

評価データセットの各行は 1 つの例を表し、列は次のいずれかです。

ID 列: 一意の例のそれぞれを識別するために使用します。
データ列: プロンプトテンプレートへの記入に使用します。プロンプトパラメータをご覧ください。
事前に生成された予測: 同じプロンプトを使用して同じモデルによって行われた予測。事前に生成された予測を使用すると、時間とリソースを節約できます。
人間の好みのグラウンドトゥルース: 両方のモデルに対して事前に生成された予測が提供された場合、選択データのグラウンドトゥルースに対する AutoSxS のベンチマークに使用されます。

評価データセットの例を以下に示します。context と question はデータ列で、model_b_response には事前に生成された予測が含まれています。

`context`	`question`	`model_b_response`
鋼鉄またはチタンが最も硬い素材であると考えている人もいるかもしれませんが、ダイヤモンドが実際には最も硬い素材です。	最も硬い素材は何ですか？	ダイヤモンドが最も硬い素材です。鋼鉄やチタンよりも硬いです。

AutoSxS を呼び出す方法の詳細については、モデル評価を行うをご覧ください。トークンの長さの詳細については、サポートされるタスクと基準をご覧ください。データを Cloud Storage にアップロードするには、評価データセットを Cloud Storage にアップロードするをご覧ください。

プロンプトパラメータ

多くの言語モデルでは、単一のプロンプト文字列ではなく、プロンプトパラメータを入力パラメータとして採用します。たとえば、chat-bison では、プロンプトの一部を構成する複数のプロンプトパラメータ（メッセージ、例、コンテキスト）を採用します。ただし、text-bison では、プロンプト全体を含む prompt という名前のプロンプトパラメータの 1 つのみです。

推論時と評価時にモデルプロンプトパラメータを柔軟に指定する方法について説明します。AutoSxS では、テンプレート化されたプロンプトパラメータを使用して、さまざまな想定入力がある言語モデルを柔軟に呼び出すことができます。

推論

いずれのモデルにも事前生成された予測がない場合、AutoSxS は Vertex AI Batch Prediction を使用してレスポンスを生成します。各モデルのプロンプトパラメータを指定する必要があります。

AutoSxS では、プロンプトパラメータとして評価データセットで単一の列を指定できます。

{'some_parameter': {'column': 'my_column'}}

または、評価データセットの列を変数として使用してテンプレートを定義し、プロンプトパラメータを指定することもできます。

{'some_parameter': {'template': 'Summarize the following: {{ my_column }}.'}}

推論のモデルプロンプトパラメータを指定する場合、ユーザーは保護された default_instruction キーワードをテンプレート引数として使用できます。特定のタスクのデフォルトの推論命令と置き換えます。

model_prompt_parameters = {
        'prompt': {'template': '{{ default_instruction }}: {{ context }}'},
}

予測を生成する場合は、モデルプロンプトパラメータと出力列を指定します。たとえば、text-bison は入力に「prompt」、出力に「content」を使用します。手順は次のとおりです。

評価対象のモデルに必要な入力と出力を特定します。
入力をモデルのプロンプトパラメータとして定義します。
出力をレスポンス列に渡します。

model_a_prompt_parameters={
    'prompt': {
        'template': {
            'Answer the following question from the point of view of a college professor: {{ context }}\n{{ question }}'
        },
    },
},
response_column_a='content',  # Column in Model A response.
response_column_b='model_b_response',  # Column in eval dataset.

評価

推論のプロンプトパラメータを指定する必要があるのと同じように、評価のプロンプトパラメータも指定する必要があります。自動評価では、次のプロンプトパラメータが必要です。

自動評価プロンプトパラメータ	ユーザーによる構成可否	説明	例
自動評価の指示	×	特定のレスポンスを判定するために自動評価が使用する基準を記述している調整された指示。	質問に回答し、最も指示に従っているレスポンスを選びます。
推論命令	○	各候補モデルが行うタスクの説明。	「最も硬い素材は何ですか？」という質問に正確に回答します。
推論コンテキスト	○	実行されているタスクの追加コンテキスト。	チタンとダイヤモンドはどちらも銅よりも硬いですが、ダイヤモンドの硬度評価は 98 で、チタンの評価は 36 です。評価が高いほど硬度が高くなります。
レスポンス	×¹	評価するレスポンスのペア（各候補モデルから 1 つずつ）。	ダイヤモンド

¹プロンプトパラメータは、事前に生成されたレスポンスを使用してのみ構成できます。

パラメータを使用したサンプルコード:

autorater_prompt_parameters={
    'inference_instruction': {
        'template': 'Answer the following question from the point of view of a college professor: {{ question }}.'
    },
    'inference_context': {
        'column': 'context'
    }
}

モデル A と B は、同じ情報が提供されるかどうかにかかわらず、異なる形式の推論命令とコンテキストを持つことができます。つまり、自動評価は独立した 1 つの推論命令とコンテキストを用います。

評価データセットの例

このセクションでは、モデル B に対して事前に生成された予測を含む、質問応答タスク評価データセットの例を示します。この例では、AutoSxS はモデル A に対してのみ推論を行います。同じ質問の例とコンテキストで区別するために id 列を提供します。

{
 "id": 1,
 "question": "What is the hardest material?",
  "context": "Some might think that steel is the hardest material, or even titanium. However, diamond is actually the hardest material.",
  "model_b_response": "Diamond is the hardest material. It is harder than steel or titanium."
}
{
  "id": 2,
  "question": "What is the highest mountain in the world?",
  "context": "K2 and Everest are the two tallest mountains, with K2 being just over 28k feet and Everest being 29k feet tall.",
  "model_b_response": "Mount Everest is the tallest mountain, with a height of 29k feet."
}
{
  "id": 3,
  "question": "Who directed The Godfather?",
  "context": "Mario Puzo and Francis Ford Coppola co-wrote the screenplay for The Godfather, and the latter directed it as well.",
  "model_b_response": "Francis Ford Coppola directed The Godfather."
}
{
  "id": 4,
  "question": "Who directed The Godfather?",
  "context": "Mario Puzo and Francis Ford Coppola co-wrote the screenplay for The Godfather, and the latter directed it as well.",
  "model_b_response": "John Smith."
}

ベストプラクティス

評価データセットを定義する際は、次のベストプラクティスに従ってください。

本番環境で処理するモデルの入力タイプを表す例を提供します。
データセットには少なくとも 1 つの評価例が含まれている必要があります。高品質の集計指標を確保するために、約 100 個の例をおすすめします。集約指標の品質改善率は、400 を超える例を指定すると減少する傾向があります。
プロンプトの作成ガイドについては、テキストプロンプトを設計するをご覧ください。
いずれかのモデルで事前生成された予測を使用している場合は、評価データセットの列に事前生成された予測を含めます。事前生成された予測を提供すると、Vertex Model Registry にないモデルの出力を比較し、レスポンスを再利用できるため、便利です。

モデル評価を行う

モデルを評価するには、REST API、または Vertex AI SDK for Python を使用します。

次の構文を使用して、モデルのパスを指定します。

パブリッシャーのモデル: publishers/PUBLISHER/models/MODEL 例: publishers/google/models/text-bison
チューニング済みモデル: projects/PROJECT_NUMBER/locations/LOCATION/models/MODEL@VERSION 例: projects/123456789012/locations/us-central1/models/1234567890123456789

REST

モデル評価ジョブを作成するには、pipelineJobs メソッドを使用して POST リクエストを送信します。

リクエストのデータを使用する前に、次のように置き換えます。

PIPELINEJOB_DISPLAYNAME : pipelineJob の表示名。
PROJECT_ID : パイプラインコンポーネントを実行する Google Cloud プロジェクト。
LOCATION: パイプラインコンポーネントを実行するリージョン。us-central1 がサポートされています。
OUTPUT_DIR: 評価出力を保存する Cloud Storage URI。
EVALUATION_DATASET : BigQuery テーブル、または評価例を含む JSONL データセットへの Cloud Storage パスのカンマ区切りのリスト。
TASK: 評価タスク。[summarization, question_answering] のいずれかを指定できます。
ID_COLUMNS : 各評価例を区別する列。
AUTORATER_PROMPT_PARAMETERS : 列またはテンプレートにマッピングされた自動評価プロンプトパラメータ。想定されるパラメータは inference_instruction（タスクを行う方法の詳細）と inference_context（タスクの実行に関するコンテンツ）です。たとえば、{'inference_context': {'column': 'my_prompt'}} は、自動評価のコンテキストに対して評価データセットの「my_prompt」列を使用します。
RESPONSE_COLUMN_A : 事前定義された予測を含む評価データセットの列の名前、または予測を含むモデル A の出力の列の名前。値が指定されていない場合は、正しいモデル出力列名の推定が試行されます。
RESPONSE_COLUMN_B : 事前定義された予測を含む評価データセットの列の名前、または予測を含むモデル B の出力の列の名前。値が指定されていない場合は、正しいモデル出力列名の推定が試行されます。
MODEL_A（省略可）: 完全修飾モデルリソース名（projects/{project}/locations/{location}/models/{model}@{version}）またはパブリッシャーモデルリソース名（publishers/{publisher}/models/{model}）。モデル A のレスポンスが指定されている場合は、このパラメータを指定しないでください。
MODEL_B（省略可）: 完全修飾モデルリソース名（projects/{project}/locations/{location}/models/{model}@{version}）またはパブリッシャーモデルリソース名（publishers/{publisher}/models/{model}）。モデル B のレスポンスが指定されている場合は、このパラメータを指定しないでください。
MODEL_A_PROMPT_PARAMETERS（省略可）: 列またはテンプレートにマッピングされたモデル A のプロンプトテンプレートパラメータ。モデル A のレスポンスが事前定義されている場合、このパラメータは指定しないでください。例: {'prompt': {'column': 'my_prompt'}} は、prompt という名前のプロンプトパラメータに評価データセットの my_prompt 列を使用します。
MODEL_B_PROMPT_PARAMETERS（省略可）: 列またはテンプレートにマッピングされたモデル B のプロンプトテンプレートパラメータ。モデル B のレスポンスが事前定義されている場合、このパラメータは指定しないでください。例: {'prompt': {'column': 'my_prompt'}} は、prompt という名前のプロンプトパラメータに評価データセットの my_prompt 列を使用します。

リクエストの本文（JSON）

  {
    "displayName": "PIPELINEJOB_DISPLAYNAME",
    "runtimeConfig": {
        "gcsOutputDirectory": "gs://OUTPUT_DIR",
        "parameterValues": {
            "evaluation_dataset": "EVALUATION_DATASET",
            "id_columns": ["ID_COLUMNS"],
            "task": "TASK",
            "autorater_prompt_parameters": AUTORATER_PROMPT_PARAMETERS,
            "response_column_a": "RESPONSE_COLUMN_A",
            "response_column_b": "RESPONSE_COLUMN_B",
            "model_a": "MODEL_A",
            "model_a_prompt_parameters": MODEL_A_PROMPT_PARAMETERS,
            "model_b": "MODEL_B",
            "model_b_prompt_parameters": MODEL_B_PROMPT_PARAMETERS,
        },
    },
    "templateUri": "http://us-kfp.pkg.dev/ml-pipeline/google-cloud-registry/autosxs-template/default"
  }

curl を使用してリクエストを送信します。

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

レスポンス

  "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "evaluation_dataset": "gs://my-evaluation-bucket/output/data.json",
      "id_columns": [
        "context"
      ],
      "task": "question_answering",
      "autorater_prompt_parameters": {
        "inference_instruction": {
          "template": "Answer the following question: {{ question }} }."
        },
        "inference_context": {
          "column": "context"
        }
      },
      "response_column_a": "",
      "response_column_b": "response_b",
      "model_a": "publishers/google/models/text-bison@001",
      "model_a_prompt_parameters": {
        "prompt": {
          "template": "Answer the following question from the point of view of a college professor: {{ question }}\n{{ context }} }"
        }
      },
      "model_b": "",
      "model_b_prompt_parameters": {}
    }
  },
  "serviceAccount": "[email protected]",
  "templateUri": "http://us-kfp.pkg.dev/ml-pipeline/google-cloud-registry/autosxs-template/default",
  "templateMetadata": {
    "version": "sha256:7366b784205551ed28f2c076e841c0dbeec4111b6df16743fc5605daa2da8f8a"
  }
}

Vertex AI SDK for Python

Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。Python API の詳細については、Vertex AI SDK for Python API をご覧ください。

パイプラインパラメータの詳細については、Google Cloud パイプラインコンポーネントのリファレンスドキュメントをご覧ください。

リクエストのデータを使用する前に、次のように置き換えます。

PIPELINEJOB_DISPLAYNAME : pipelineJob の表示名。
PROJECT_ID : パイプラインコンポーネントを実行する Google Cloud プロジェクト。
LOCATION: パイプラインコンポーネントを実行するリージョン。us-central1 がサポートされています。
OUTPUT_DIR: 評価出力を保存する Cloud Storage URI。
EVALUATION_DATASET : BigQuery テーブル、または評価例を含む JSONL データセットへの Cloud Storage パスのカンマ区切りのリスト。
TASK: 評価タスク。[summarization, question_answering] のいずれかを指定できます。
ID_COLUMNS : 各評価例を区別する列。
AUTORATER_PROMPT_PARAMETERS : 列またはテンプレートにマッピングされた自動評価プロンプトパラメータ。想定されるパラメータは inference_instruction（タスクを行う方法の詳細）と inference_context（タスクの実行に関するコンテンツ）です。たとえば、{'inference_context': {'column': 'my_prompt'}} は、自動評価のコンテキストに対して評価データセットの「my_prompt」列を使用します。
RESPONSE_COLUMN_A : 事前定義された予測を含む評価データセットの列の名前、または予測を含むモデル A の出力の列の名前。値が指定されていない場合は、正しいモデル出力列名の推定が試行されます。
RESPONSE_COLUMN_B : 事前定義された予測を含む評価データセットの列の名前、または予測を含むモデル B の出力の列の名前。値が指定されていない場合は、正しいモデル出力列名の推定が試行されます。
MODEL_A（省略可）: 完全修飾モデルリソース名（projects/{project}/locations/{location}/models/{model}@{version}）またはパブリッシャーモデルリソース名（publishers/{publisher}/models/{model}）。モデル A のレスポンスが指定されている場合は、このパラメータを指定しないでください。
MODEL_B（省略可）: 完全修飾モデルリソース名（projects/{project}/locations/{location}/models/{model}@{version}）またはパブリッシャーモデルリソース名（publishers/{publisher}/models/{model}）。モデル B のレスポンスが指定されている場合は、このパラメータを指定しないでください。
MODEL_A_PROMPT_PARAMETERS（省略可）: 列またはテンプレートにマッピングされたモデル A のプロンプトテンプレートパラメータ。モデル A のレスポンスが事前定義されている場合、このパラメータは指定しないでください。例: {'prompt': {'column': 'my_prompt'}} は、prompt という名前のプロンプトパラメータに評価データセットの my_prompt 列を使用します。
MODEL_B_PROMPT_PARAMETERS（省略可）: 列またはテンプレートにマッピングされたモデル B のプロンプトテンプレートパラメータ。モデル B のレスポンスが事前定義されている場合、このパラメータは指定しないでください。例: {'prompt': {'column': 'my_prompt'}} は、prompt という名前のプロンプトパラメータに評価データセットの my_prompt 列を使用します。

import os
from google.cloud import aiplatform
parameters = {
    'evaluation_dataset': 'EVALUATION_DATASET',
    'id_columns': ['ID_COLUMNS'],
    'task': 'TASK',
    'autorater_prompt_parameters': AUTORATER_PROMPT_PARAMETERS,
    'response_column_a': 'RESPONSE_COLUMN_A',
    'response_column_b': 'RESPONSE_COLUMN_B',
    'model_a': 'MODEL_A',
    'model_a_prompt_parameters': MODEL_A_PROMPT_PARAMETERS,
    'model_b': 'MODEL_B',
    'model_b_prompt_parameters': MODEL_B_PROMPT_PARAMETERS,
}
aiplatform.init(project='PROJECT_ID', location='LOCATION', staging_bucket='gs://OUTPUT_DIR')
aiplatform.PipelineJob(
    display_name='PIPELINEJOB_DISPLAYNAME',
    pipeline_root=os.path.join('gs://OUTPUT_DIR', 'PIPELINEJOB_DISPLAYNAME'),
    template_path=(
      'http://us-kfp.pkg.dev/ml-pipeline/google-cloud-registry/autosxs-template/default'),
    parameter_values=parameters,
).run()

評価の結果を表示する

Vertex AI Pipelines で評価結果を確認するには、AutoSxS パイプラインによって生成された次のアーティファクトを調べます。

判定テーブルは、AutoSxS アービターによって生成されます。
集約指標は、AutoSxS 指標コンポーネントによって生成されます。
人間の好みのアライメント指標は、AutoSxS 指標コンポーネントによって生成されます。

判定

AutoSxS は、ユーザーがサンプルレベルでモデルのパフォーマンスを理解できるよう判定（サンプルレベルの指標）を出力します。判定には次の情報が含まれます。

推論プロンプト
モデルのレスポンス
自動評価の決定
評価の説明
信頼性スコア

判定は、JSONL 形式で Cloud Storage に、または次の列を使用して BigQuery テーブルに書き込むことができます。

列	説明
ID 列	各評価例を区別する列。
`inference_instruction`	モデルレスポンスの生成に使用する命令。
`inference_context`	モデルレスポンスの生成に使用するコンテキスト。
`response_a`	推論命令とコンテキストが指定されたモデル A のレスポンス。
`response_b`	推論命令とコンテキストが指定されたモデル B のレスポンス。
`choice`	より良いレスポンスを持つモデル。指定可能な値は `Model A`、`Model B`、`Error` です。`Error` は、エラーによって自動評価がモデル A のレスポンスとモデル B のレスポンスのどちらが最適かを判断できなかったことを意味します。
`confidence`	`0`～`1` のスコア。自動評価が選択した信頼度を示します。
`explanation`	自動評価がそれを選択した理由。

集約指標

AutoSxS では、判定テーブルを使用して集約（勝率）指標を計算します。人間の好みのデータが指定されていない場合、次の集約指標が生成されます。

指標	説明
自動評価モデル A の勝率	自動評価がモデル A のレスポンスの方が優れていると判定した時間の割合。
自動評価モデル B の勝率	自動評価がモデル B のレスポンスの方が優れていると判定した時間の割合。

勝率をより深く理解するには、行ベースの結果と自動評価の説明を確認して、結果と説明が期待どおりであるかどうかを判断します。

人間の好みのアライメント指標

人間の好みのデータが指定されている場合、AutoSxS は次の指標を出力します。

指標説明

自動評価モデル A の勝率自動評価がモデル A のレスポンスの方が優れていると判定した時間の割合。

自動評価モデル B の勝率自動評価がモデル B のレスポンスの方が優れていると判定した時間の割合。

人間の好みのモデル A の勝率人間がモデル A のレスポンスの方が優れていると判定した時間の割合。

人間の選好のモデル B の勝率人間がモデル B のレスポンスの方が優れていると判定した時間の割合。

TP 自動評価と人間の好みの両方が、モデル A のレスポンスの方が良いと判定したサンプル数。

FP 自動評価がモデル A をより良いレスポンスとして選択したものの、人間の選好はモデル B の方がより良いレスポンスであるとしたサンプル数。

TN 自動評価と人間の好みの両方が、モデル B のレスポンスの方が良いと判定したサンプル数。

FN 自動評価がモデル B をより良いレスポンスとして選択したものの、人間の選好はモデル A の方がより良いレスポンスであるとしたサンプル数。

精度自動評価が人間の評価者と合意した時間の割合。

適合率自動評価がモデル A のレスポンスの方が良いと考えたすべてのケースのうち、自動評価と人間の両方がモデル A の方が良いレスポンスであると考えた時間の割合。

再現率人間がモデル A のレスポンスの方が良いと考えたすべてのケースのうち、自動評価と人間の両方がモデル A の方が良いレスポンスであると考えた時間の割合。

F1 適合率と再現率の調和平均。

コーエンのカッパ係数

ランダムな一致の可能性を考慮した、自動評価と人間の評価者の一致の測定値。コーエンは次のように解釈します。

`-1.0` - `0.0`	偶然と同等以下の一致
`0.0` - `0.2`	わずかに一致
`0.2` - `0.4`	まずまずの一致
`0.4` - `0.6`	中程度の一致
`0.6` - `0.8`	かなりの一致
`0.8` - `1.0`	ほぼ完璧に一致
`1.0`	完璧な一致

AutoSxS のユースケース

3 つのユースケースシナリオを使って AutoSxS の使用方法を確認します。

モデルを比較する

ファーストパーティ（1p）のリファレンスモデルに対して調整された 1p モデルを評価します。

推論が両方のモデルで同時に実行されるように指定できます。

図 2. 両方の推論モデルが実行されます

このコードサンプルは、Vertex Model Registry の調整されたモデルを、同じレジストリのリファレンスモデルに対して評価します。

# Evaluation dataset schema:
#   my_question: str
#   my_context: str
parameters = {
    'evaluation_dataset': DATASET,
    'id_columns': ['my_context'],
    'task': 'question_answering',
    'autorater_prompt_parameters': {
      'inference_instruction': {'column': 'my_question'},
      'inference_context': {'column': 'my_context'},
  },
    'model_a': 'publishers/google/models/text-bison@001',
    'model_a_prompt_parameters': {QUESTION: {'template': '{{my_question}}\nCONTEXT: {{my_context}}'}},
  'response_column_a': 'content',
    'model_b': 'projects/abc/locations/abc/models/tuned_bison',
    'model_b_prompt_parameters': {'prompt': {'template': '{{my_context}}\n{{my_question}}'}},
  'response_column_b': 'content',
}

予測を比較する

3p のリファレンスモデルに対して、調整されたサードパーティ（3p）モデルを評価します。

モデルのレスポンスを直接渡すことで、推論をスキップできます。

図 3. 実行される推論モデルは 1 つだけです

このコードサンプルは、3p のリファレンスモデルに対して調整された 3p モデルを評価します。

# Evaluation dataset schema:
#   my_question: str
#   my_context: str
#   response_b: str

parameters = {
    'evaluation_dataset': DATASET,
    'id_columns': ['my_context'],
    'task': 'question_answering',
    'autorater_prompt_parameters':
        'inference_instruction': {'column': 'my_question'},
        'inference_context': {'column': 'my_context'},
    },
    'response_column_a': 'content',
    'response_column_b': 'response_b',
}

アライメントを確認する

サポートされているすべてのタスクは、自動評価のレスポンスが人間の好みと一致するように、人間の評価者データを使用してベンチマークされています。ユースケースに対して AutoSxS のベンチマークを行う場合は、人間の好みのデータを AutoSxS に直接提供してください。これにより、アライメント集計の統計情報が出力されます。

人間の好みのデータセットとのアライメントを確認するには、両方の出力（予測結果）を自動評価に指定します。推論の結果を提供することもできます。

図 4. 自動評価に提供された両方のモデルからの出力

このコードサンプルは、自動評価の結果と説明が想定どおりの内容であることを確認します。

# Evaluation dataset schema:
#  my_question: str
#  my_context: str
#   response_a: str
#   response_b: str
#   actual: str
parameters = {
    'evaluation_dataset': DATASET,
    'id_columns': ['my_context'],
    'task': 'question_answering',
    'autorater_prompt_parameters': {
      'inference_instruction': {'column': 'my_question'},
      'inference_context': {'column': 'my_context'},
  },
  'response_column_a': 'response_a',
  'response_column_b': 'response_b',
  'human_preference_column': 'actual',
}

次のステップ

モデルの評価をすばやく開始する方法を確認する。
生成 AI の評価について学習する。
迅速な評価によるオンライン評価について学習する。
コンピューティングベースの評価パイプラインについて学習する。
言語基盤モデルのチューニング方法を学習する。

AutoSxS

AutoSxS

自動評価

サポートされているモデル

サポートされるタスクと基準

要約

質問応答

AutoSxS の評価データセットを準備する

データセットのフォーマット

プロンプト パラメータ

推論

評価

評価データセットの例

ベスト プラクティス

モデル評価を行う

REST

Vertex AI SDK for Python

評価の結果を表示する

判定

集約指標

人間の好みのアライメント指標

AutoSxS のユースケース

モデルを比較する

予測を比較する

アライメントを確認する

次のステップ

プロンプトパラメータ

ベストプラクティス