評価方法と指標

このページでは、現在の評価指標の概要と、各指標の使用方法について説明します。

ポイントワイズとペアワイズ

適用する指標を決定する前に、評価目標を特定する必要があります。評価パラダイムで説明されているように、ポイントワイズ評価とペアワイズ評価のどちらを行うかも決定する必要があります。

パラダイム	使用するタイミング
ポイントワイズ	本番環境でのモデルの動作を把握します。 1 つのモデルの長所と短所を調べます。チューニング時に重視する動作を特定します。モデルのベースラインパフォーマンスを確認します。
ペアワイズ	本番環境にデプロイするモデルを決定します。モデルタイプを選択します。たとえば、Gemini-Pro と Claude 3 です。さまざまなプロンプトから選択できます。チューニングでベースラインモデルが改善されたかどうかを判断します。

タスクと指標

タスクと指標を特定するには、次の操作を行います。

ペアワイズ評価とポイントワイズ評価のどちらを行うかを決定します。
モデルの役割と、レスポンスのどの側面が重要であるかを考慮して、評価タスクと計算する指標を特定します。

次の質問を参考にして判断してください。

タスクを特定します。
- モデルは何を行いますか？
- モデルは質問に答えますか？
- モデルが質問に回答する場合は、質問に対する回答の指標を提供することを検討してください。
指標を特定します。
- レスポンスの安全性や流暢性について心配がありますか？レスポンスと流暢性の両方の指標があります。

指標バンドル

指標バンドルは、関連性の高い指標を組み合わせて、評価プロセスを簡素化します。組み合わせは次のディメンションに基づいています。

評価タスク: 要約、質問応答、テキスト生成
評価の観点: 類似性、安全性、品質
入力の整合性: 同じバンドル内のすべての指標が同じデータセット入力を使用します。
評価パラダイム: ポイントワイズとペアワイズ

指標バンドルはオンライン評価 SDK で直接使用できます。これにより、カスタマイズされた評価ワークフローの開発で分析情報を得ることができます。

次の表に、使用可能な指標バンドルの詳細を示します。

指標のバンドル名	指標名	ユーザー入力
`text_generation_similarity`	`exact_match` `bleu` `rouge`	予測参照
`tool_call_quality`	`tool_call_valid` `tool_name_match` `tool_parameter_key_match` `tool_parameter_kv_match`	予測参照
`text_generation_quality`	`coherence` `fluency`	予測
`text_generation_instruction_following`	`fulfillment`	予測参照
`text_generation_safety`	`safety`	予測
`text_generation_factuality`	`groundedness`	予測コンテキスト
`summarization_pointwise_reference_free`	`summarization_quality` `summarization_helpfulness` `summarization_verbosity`	予測コンテキスト指示
`summary_pairwise_reference_free`	`pairwise_summarization_quality`	予測コンテキスト指示
`qa_pointwise_reference_free`	`question_answering_quality` `question_answering_relevance` `question_answering_helpfulness`	予測コンテキスト指示
`qa_pointwise_reference_based`	`question_answering_correctness`	予測コンテキスト指示参照
`qa_pairwise_reference_free`	`pairwise_question_answering_quality`	予測コンテキスト指示

指標の結果について

指標によって出力結果が異なります。そのため、評価を解釈できるように、結果の意味と生成方法について説明します。

スコアとペアワイズ

選択した評価パラダイムに基づいて、ポイントワイズの評価結果には score が表示され、ペアワイズの評価結果には pairwise_choice が表示されます。

ポイントワイズ評価の場合、評価結果のスコアは、評価対象のモデル出力のパフォーマンスまたは品質の数値表現になります。スコアの尺度は指標ごとに異なります。バイナリ（0 と 1）、リッカート尺度（1～5、-2～2）、浮動小数点数（0.0～1.0）があります。各指標のスコア値の詳細については、タスクと指標のセクションをご覧ください。

ペアワイズ指標の場合、評価結果の pairwise_choice は、候補予測とベースライン予測のどちらが優れているかを示す列挙型になります。次の値が可能です。

BASELINE: ベースライン予測の方が優れている
CANDIDATE: 候補の予測が優れている

評価パイプラインサービスでペアワイズ評価を実行する場合、ベースラインと候補の予測ではなく、A と B が選択オプションとして出力されます。

説明と信頼スコア

説明と信頼スコアは、モデルベースの評価の機能です。

指標	定義	型	仕組み
説明	自動評価がそれを選択した理由。	文字列	思考の連鎖を使用して、AutoRater が各判定に対する根拠を説明できるようにします。AutoRater に推論を強制すると、評価精度が向上することが示されています。
信頼スコア	0～1 のスコア。AutoRater が判定を下した信頼度を示します。スコアが 1 に近いほど、信頼度が高くなります。	浮動小数点数	モデルベースの評価では、自己整合性のデコード戦略を使用して評価結果を決定します。これにより、評価精度が向上することが示されています。したがって、1 つの評価入力に対して AutoRater を数回サンプリングし、一致した結果を返します。これらのサンプル結果のばらつきは、AutoRater が判定にどれだけ自信を持っているかを表します。

例

次の例を参考にして、結果の解釈方法を理解してください。

例 1

最初の例は、summarizationQuality のポイントワイズ評価です。summarization_quality 指標のポイントワイズ評価のスコアは 4 です（尺度は 1～5）。これは、予測結果の予約が良好であることを示しています。さらに、評価結果の explanation は、予測がスコア 4 に判断された理由を示しています。スコアは高くも低くもありません。評価結果の confidence スコアは、自動評価がスコアに対してどの程度自信を持っているかを示します。信頼スコアが 0.8（尺度は 0.0～1.0）の場合、自動評価は要約のスコアが 4 であると確信しています。

データセット

instruction: 「5 歳の子供でも理解できるようにテキストを要約してください。」
context: 「ソーシャルメディアプラットフォームのコンテンツ管理ポリシーをめぐって反発\n著名なソーシャルメディアプラットフォームが、ユーザーやコンテンツクリエイターからコンテンツ管理ポリシーに対する不満を表明され、論争の的となっています。偏った検閲、一貫性のない適用、特定の視点の抑圧の疑いにより、プラットフォームが言論の自由を抑圧していると主張するユーザーの間で怒りが広がっています。一方、プラットフォームは、ポリシーは安全で包括的なオンライン環境を維持するために設計されていると主張しています。この論争は、ソーシャルメディアが一般の議論を形成する役割と、オンラインコンテンツをキュレートするプラットフォームの責任について疑問を提起しています。」
prediction: 「ユーザーは、投稿できる内容が公平ではないと考え、ウェブサイトに不満を持っています。ウェブサイトが、ユーザーが言いたいことを言えない状態にしているという意見もあります。しかし、ウェブサイトでは、すべてのユーザーを保護しようとしています。そのため、ウェブ上でユーザーが何を言ったり書いたりできるかをウェブサイトが管理すべきかどうかが問題になります。」

結果

score: 4,
explanation: レスポンスの概要は、5 歳児が理解できるようにコンテキストを要約するという指示に従っています。コンテキストに基づいており、要約には重要な詳細情報が含まれています。ただし、レスポンスで使用される表現は少し冗長です。
confidence: 0.8

例 2

2 つ目の例は pairwiseQuestionAnsweringQuality のペアワイズ比較の評価です。pairwiseChoice の結果は、自動評価が context の背景情報をもとに instruction の回答としてベースラインのレスポンス「フランスは国です」よりも候補のレスポンス「フランスは西ヨーロッパの国です」のほうが良いと判断したことを示しています。ポイントワイズの結果と同様に説明と信頼スコアも提供され、候補のレスポンスがベースラインのレスポンスよりも優れている理由（この場合、候補のレスポンスのほうが有用である）と、自動評価がこの選択にどれほど自信を持っているか（信頼度は 1 で、自動評価がこの選択についてかなり自信を持っている）が示されています。

データセット

prediction: "フランスは西ヨーロッパにある国です",
baseline_prediction: "フランスは国です",
instruction: "フランスはどこにありますか？",
context: "フランスは西ヨーロッパにある国です。国境を接しているのは、ベルギー、ルクセンブルク、ドイツ、スイス、イタリア、モナコ、スペイン、アンドラです。フランスの海岸線は、ドーバー海峡、北海、大西洋、地中海に沿って伸びています。フランスは、豊かな歴史、エッフェル塔などの象徴的なランドマーク、美味しい料理で知られ、ヨーロッパおよび世界における文化的、経済的な大国です。"

結果

pairwiseChoice: CANDIDATE,
explanation: BASELINE のレスポンスに根拠はありますが、質問に対する完全な答えにはなっていません。一方、CANDIDATE のレスポンスは正しく、フランスの場所に関する有用な詳細情報を提供しています。
confidence: 1

次のステップ

モデルの評価をすばやく開始する方法を確認する。
オンライン評価とパイプライン評価の違いを確認する。
計算ベースの評価について学習する。
ペアワイズモデルベースの評価について学習する。
基盤モデルのチューニング方法を学習する。