Métricas de sesgo de datos para Vertex AI

En esta página, se describen las métricas de evaluación que puedes usar para detectar sesgos de datos, que pueden aparecer en datos sin procesar y valores de verdad fundamental, incluso antes de entrenar el modelo. Para los ejemplos y la notación de esta página, usamos un conjunto de datos hipotético de aplicación universitaria que se describe en detalle en Introducción a la evaluación de modelos para la equidad.

Para obtener descripciones de las métricas que se generan a partir de datos posteriores al entrenamiento, consulta Métricas de sesgo del modelo.

Descripción general

En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 a solicitantes de Florida en la porción 2, etiquetados de la siguiente manera:

Porción Rechazar Aceptar
California 140 60
Florida 80 20

Por lo general, puedes interpretar el signo para la mayoría de las métricas de la siguiente manera:

  • Valor positivo: indica un posible sesgo que favorece la porción 1 sobre la porción 2.

  • Valor cero: indica que no hay sesgo entre la porción 1 y la porción 2.

  • Valor negativo: indica un posible sesgo a favor de la porción 2 sobre la porción 1.

Hacemos nota de esto cuando no se aplica a una métrica.

Diferencia en el tamaño de la población

La diferencia en el tamaño de la población mide si hay más ejemplos en la porción 1 en comparación con la porción 2, normalizada por la población total de las dos porciones:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(Población total de la porción 1 - población total de la porción 2) / (suma de las poblaciones en la porción 1 y 2)

En nuestro conjunto de datos de ejemplo:

(200 solicitantes de California - 100 empleados de Florida)/ 300 solicitantes en total = 100/300 = 0.33.

El valor positivo de la diferencia en el tamaño de la población indica que hay más solicitantes de California que los de Florida. El valor positivo puede o no indicar sesgo por sí mismo, pero cuando se entrena un modelo con estos datos, puede que el modelo aprenda a funcionar mejor para los solicitantes de California.

Diferencia en las proporciones positivas en etiquetas verdaderas (DPPTL)

La diferencia en proporciones positivas en etiquetas verdaderas mide si un conjunto de datos tiene etiquetas de verdad fundamental de manera desproporcionada para una porción sobre la otra. Esta métrica calcula la diferencia en las proporciones positivas en las etiquetas verdaderas entre la porción 1 y la porción 2, en la que las proporciones positivas en las etiquetas verdaderas para una porción es (resultados positivos etiquetados / tamaño total de la población). Esta métrica también se conoce como desequilibrio de etiquetas:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Resultados positivos etiquetados para la porción 1/Tamaño de población total de la porción 1) (Resultados positivos etiquetados para la porción 2/Tamaño de población total de la porción 2)

En nuestro conjunto de datos de ejemplo:

(60 solicitantes de California aceptados/200 solicitantes de California) - (20 solicitantes de California aceptados/100 empleados de Florida) = 60/200 - 20/100 = 0.1.

El valor positivo del DPPTL indica que el conjunto de datos tiene resultados desproporcionados más positivos para los solicitantes de California en comparación con los solicitantes de Florida. El valor positivo puede o no indicar sesgo por sí mismo, pero cuando se entrena un modelo con estos datos, puede que el modelo aprenda a predecir resultados más positivos de manera desproporcionada para los solicitantes de California.

¿Qué sigue?