Métricas de viés de dados para a Vertex AI

Nesta página, descrevemos as métricas de avaliação que podem ser usadas para detectar o viés de dados, que pode aparecer em dados brutos e valores de informações empíricas antes mesmo de treinar o modelo. Para os exemplos e a notação nesta página, usamos um conjunto de dados hipotético de inscrição em faculdade, descrito em detalhes em Introdução à avaliação de modelo para imparcialidade.

Para descrições de métricas geradas a partir de dados pós-treinamento, consulte Métricas de viés do modelo.

Informações gerais

No nosso conjunto de dados de aplicativos universitários de exemplo, temos 200 candidatos da Califórnia na fatia 1 e 100 candidatos da Flórida na fatia 2, rotulados da seguinte maneira:

Fatia Rejeitar Aceitar
Califórnia 140 60
Flórida 80 20

Geralmente, é possível interpretar o sinal da maioria das métricas da seguinte maneira:

  • Valor positivo: indica um possível viés que favorece a fatia 1 sobre a fatia 2.

  • Valor zero: indica que não há viés entre a fatia 1 e a fatia 2.

  • Valor negativo: indica um possível viés na favor da fatia 2 em relação à 1.

Aplicamos uma observação quando isso não se aplica a uma métrica.

Diferença no tamanho da população

A diferença no tamanho da população mede se há mais exemplos na fatia 1 em comparação com a fatia 2, normalizada pela população total das duas fatias:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(população total da fatia 1 - população total da fatia 2) / (soma das populações na fatia 1 e 2)

No nosso conjunto de dados de exemplo:

(200 inscritos na Califórnia: 100 na Flórida)/ 300 no total = 100/300 = 0,33.

O valor positivo da diferença no tamanho da população indica que existem mais desproporcionalmente mais candidatos da Califórnia do que candidatos à Flórida. O valor positivo pode ou não indicar viés por si só, mas quando um modelo é treinado com esses dados, ele pode aprender a ter um melhor desempenho para candidatos na Califórnia.

Diferença nas proporções positivas em rótulos verdadeiros (DPPTL)

A diferença nas proporções positivas em rótulos verdadeiros mede se um conjunto de dados tem rótulos de verdade empíricos mais positivos para uma fatia sobre a outra. Essa métrica calcula a diferença nas proporções positivas em rótulos verdadeiros entre a fatia 1 e a fatia 2, em que as proporções positivas em rótulos verdadeiros de uma fatia são (resultados positivos rotulados / tamanho total da população). Essa métrica também é conhecida como Desequilíbrio do rótulo:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Resultados positivos rotulados para a fatia 1/Tamanho total da população da fatia 1) - Resultados positivos rotulados para a fatia 2/Tamanho total da população da fatia 2

No nosso conjunto de dados de exemplo:

(60 candidatos aceitos na Califórnia/200 candidatos na Califórnia) - (20 candidatos aceitas na Flórida/100 candidatos na Flórida) = 60/200 - 20/100 = 0,1.

O valor positivo do DPPTL indica que o conjunto de dados tem resultados desproporcionalmente mais altos para candidatos na Califórnia em comparação com candidatos à Flórida. O valor positivo pode ou não indicar viés por si só, mas quando um modelo é treinado com esses dados, ele pode aprender a prever resultados desproporcionalmente mais positivos para candidatos à Califórnia.

A seguir