Introducción a la evaluación de modelos para la equidad

Un flujo de trabajo de aprendizaje automático puede incluir la evaluación de equidad en tu modelo. Un modelo injusto muestra sesgo sistémico que puede causar daños, en especial a grupos tradicionalmente subrepresentados. Un modelo desigual puede tener un peor rendimiento para ciertos subconjuntos, o porciones del conjunto de datos.

Puedes detectar sesgos durante el proceso de recopilación de datos o de evaluación posterior al entrenamiento. Vertex AI proporciona las siguientes métricas de evaluación del modelo para ayudarte a evaluar tu modelo en busca de sesgo:

  • Métricas de sesgo de datos: Antes de entrenar y compilar tu modelo, estas métricas detectan si tus datos sin procesar incluyen sesgos. Por ejemplo, un conjunto de datos de detección de sondeo puede contener mucho menos personas mayores que las más recientes. Varias de estas métricas se basan en cuantificar la distancia entre la distribución de etiquetas para diferentes grupos de datos:

    • Diferencia en el tamaño de la población.

    • Diferencia en las proporciones positivas en etiquetas verdaderas.

  • Métricas de sesgo del modelo: después de entrenar tu modelo, estas métricas detectan si las predicciones de tu modelo incluyen sesgos. Por ejemplo, un modelo puede ser más exacto para un subconjunto de datos que el resto de los datos:

    • Diferencia en la precisión.

    • Diferencia en las proporciones positivas de las etiquetas previstas.

    • Diferencia de recuperación.

    • Diferencia de especificidad.

    • Diferencia en la proporción de los tipos de errores.

Para obtener información sobre cómo incluir los componentes de canalización de sesgo de evaluación del modelo en la ejecución de tu canalización, consulta Componente de evaluación del modelo.

Descripción general del conjunto de datos de ejemplo

Para todos los ejemplos relacionados con las métricas de equidad, usamos un conjunto de datos hipotético de admisión a la universidad con características como la calificación de educación secundaria, el estado y la identidad de género del solicitante. Queremos medir si la universidad está orientada a los solicitantes de California o Florida.

Las etiquetas de destino, o todos los resultados posibles, son los siguientes:

  • Acepta al solicitante con una beca (p).

  • Aceptar al solicitante sin una beca (q)

  • Rechaza al postulante (r).

Se puede suponer que los expertos en admisión proporcionaron estas etiquetas como verdad fundamental. Ten en cuenta que, incluso, es posible que estas etiquetas de expertos se puedan sesgar, ya que las asignaron las personas.

Si deseas crear un ejemplo de clasificación binaria, podemos agrupar etiquetas para crear dos resultados posibles:

  • Resultado positivo, anotado como 1. Podemos agrupar p y q en el resultado positivo de “{p,q} aceptado”.

  • Resultado negativo, anotado como 0. Puede ser una colección de todos los demás resultados, además del positivo. En el ejemplo de la aplicación de la universidad, el resultado negativo es “rechazado {r}”.

Para medir el sesgo entre los solicitantes de California y Florida, separamos dos segmentos del resto del conjunto de datos:

  • Porción 1 del conjunto de datos para el que se mide el sesgo. En el ejemplo de la aplicación de la universidad, medimos el sesgo de los solicitantes de California.

  • Porción 2 del conjunto de datos en función del cual se mide el sesgo. La porción 2 puede incluir “todo no en la porción 1” de forma predeterminada, pero para el ejemplo de la solicitud de la universidad, asignaremos la porción 2 como postulantes de Florida.

En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 empleados de Florida en la porción 2. Después de entrenar el modelo, tenemos las siguientes matrices de confusión:

Solicitantes de California Aceptaciones (previstas) Rechazos (previstos)
Aceptaciones (verdad fundamental) 50 (verdaderos positivos) 10 (falsos negativos)
Rechazos (verdad fundamental) 20 (falsos positivos) 120 (verdaderos negativos)
Solicitantes de Florida Aceptaciones (previstas) Rechazos (previstos)
Aceptaciones (verdad fundamental) 20 (verdaderos positivos) 0 (falsos negativos)
Rechazos (verdad fundamental) 30 (falsos positivos) 50 (verdaderos negativos)

Cuando comparamos las métricas entre las dos matrices de confusión, podemos medir sesgos respondiendo preguntas como “¿El modelo tiene mejor recuperación para una porción que la otra?”

También usamos la siguiente abreviatura para representar los datos de verdad fundamental etiquetados, en los que i representa el número de porción (1 o 2):

\( l^0_i = tn_i + fp_i \)
En la porción i, la cantidad de resultados negativos etiquetados = verdaderos negativos + falsos positivos.

\( l^1_i = fn_i + tp_i \)
En el segmento i, la cantidad de resultados positivos etiquetados = falsos negativos + verdaderos positivos.

Ten en cuenta lo siguiente sobre el ejemplo del conjunto de datos de la aplicación de la universidad:

  • Algunas métricas de equidad también se pueden generalizar para varios resultados, pero usamos la clasificación binaria a fin de hacerlo más simple.

  • El ejemplo se centra en la tarea de clasificación, pero algunas métricas de equidad se generalizan a otros problemas, como la regresión.

  • Para este ejemplo, suponemos que los datos de entrenamiento y los de prueba son los mismos.

¿Qué sigue?