Vertex AI のデータバイアス指標

このページでは、データバイアスの検出に使用できる評価指標について説明します。データバイアスは、モデルをトレーニングする前であっても、元データとグラウンド トゥルースの値に見られることがあります。このページの例と表記法では、公平性のためのモデル評価の概要で詳細に説明されている架空の大学出願データセットを使用します。

トレーニング後のデータから生成される指標の説明については、モデルバイアスの指標をご覧ください。

概要

この大学出願データセットの例では、スライス 1 にカリフォルニア州の出願者 200 人、スライス 2 にフロリダ州の出願者 100 人が含まれており、以下のようにラベル付けされています。

スライス 不合格 合格
カリフォルニア 140 60
フロリダ 80 20

一般的に、ほとんどの指標の符号は次のように解釈できます。

  • 正の値: スライス 2 よりもスライス 1 を優先する潜在的なバイアスを示します。

  • ゼロ値: スライス 1 とスライス 2 の間にバイアスがないことを示します。

  • 負の値: スライス 1 よりもスライス 2 を優先する場合の潜在的なバイアスを示します。

指標に該当しない場合、お知らせします。

母集団のサイズの違い

母集団サイズの違いは、スライス 1 とスライス 2 にさらにサンプルがあるかどうかを示し、2 つのスライスの合計母集団で正規化されます。

$$ \frac{n_1-n_2}{n_1+n_2} $$

(スライス 1 の合計母集団 - スライス 2 の合計母集団)÷ (スライス 1 とスライス 2 の母集団の合計)

サンプル データセットの場合:

(カリフォルニアの出願者 200 人 - フロリダの出願者 100 人)/ 合計 300 件の出願者 = 100/300 = 0.33

母集団サイズの差が正の値の場合は、カリフォルニア州の出願者がフロリダ州の出願者よりもかなり多いことがわかります。正の値はそれ自体にバイアスがあるとは限りませんが、このデータでモデルをトレーニングすると、カリフォルニア州の出願者に対してパフォーマンスが向上する学習結果となる可能性があります。

真のラベルにおける正の割合の差(DPPTL)

真のラベルにおける正の割合の差は、データセットがあるスライスを他のスライスよりも不均一な正の正解ラベルを多く持つかどうかを測定します。この指標は、スライス 1 とスライス 2 の間の真のラベルにおける正の割合の差を表します。ここで、スライスの真のラベルにおける正の割合は(ラベル付き正の結果 ÷ 母集団の合計サイズ)です。この指標は、ラベルの不均衡とも呼ばれます。

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(スライス 1 のラベル付き正の結果 / スライス 1 の母集団の合計サイズ)-(スライス 2 のラベル付き正の結果 / スライス 2 の母集団の合計サイズ)

サンプル データセットの場合:

(カリフォルニア州の出願者 60 人 / カリフォルニア州の出願者 200 人)- (フロリダ州の出願者 20 人 / フロリダ州の出願者 100 人)= 60/200 - 20/100 = 0.1

DPPTL の正の値は、カリフォルニア州の出願者は、フロリダ州の出願者と比べて、データセットがかなり高い正の結果であることを示しています。正の値は単独でバイアスを示す場合とそうでない場合がありますが、モデルはこのデータでトレーニングすると、カリフォルニア州の出願者に対してかなり高い正の結果を予測する場合があります。

次のステップ