Présentation de l'évaluation de modèle pour l'impartialité

Un workflow de machine learning peut inclure l'évaluation de l'impartialité de votre modèle. Un modèle inéquitable affiche des biais systémiques susceptibles de porter préjudice, en particulier aux groupes sous-représentés traditionnellement. Un modèle inéquitable peut fonctionner moins bien pour certains sous-ensembles (ou tranches) de l'ensemble de données.

Vous pouvez détecter les biais lors de la collecte des données ou du processus d'évaluation post-entraînement. Vertex AI fournit les métriques d'évaluation de modèle suivantes pour vous aider à évaluer les biais de votre modèle :

  • Métriques de biais de données : avant d'entraîner et de créer votre modèle, ces métriques détectent si vos données brutes incluent des biais. Par exemple, un ensemble de données de détection de sourires peut contenir beaucoup moins de personnes âgées que de personnes plus jeunes. Plusieurs de ces métriques sont basées sur la quantification de la distance entre la distribution des étiquettes pour différents groupes de données :

    • Différence de taille de population.

    • Différence de proportions positives dans les étiquettes réelles.

  • Métriques de biais de modèle : après avoir entraîné votre modèle, ces métriques détectent si les prédictions de votre modèle incluent des biais. Par exemple, un modèle peut s'avérer plus juste pour un sous-ensemble des données que pour le reste des données :

    • Différence de justesse.

    • Différence de proportions positives dans les étiquettes prédites.

    • Différence de rappel.

    • Différence de spécificité.

    • Différence de ratio des types d'erreur.

Pour savoir comment inclure les composants du pipeline d'évaluation de modèle dans votre exécution de pipeline, consultez la section Composant d'évaluation du modèle.

Présentation de l'exemple d'ensemble de données

Pour tous les exemples liés aux métriques d'impartialité, nous utilisons un ensemble de données hypothétique de candidature à l'université avec des caractéristiques telles que le niveau scolaire, l'État et l'identité de genre d'un candidat. Nous voulons déterminer si l'université est biaisée en faveur des candidats de Californie ou de Floride.

Les étiquettes cibles, ou tous les résultats possibles, sont les suivants :

  • Accepte le candidat avec une bourse d'étude (p).

  • Accepte le candidat sans bourse d'étude (q).

  • Refuse le candidat (r).

Nous pouvons supposer que les experts en admission ont fourni ces étiquettes en tant que vérité terrain. Notez qu'il est possible que ces étiquettes d'experts soient biaisées, car elles ont été attribuées par des humains.

Pour créer un exemple de classification binaire, nous pouvons regrouper les étiquettes afin de créer deux résultats possibles :

  • Résultat positif, noté 1. Nous pouvons regrouper p et q dans le résultat positif de "{p,q} acceptés".

  • Résultat négatif, noté 0. Il peut s'agir de tous les autres résultats en dehors du résultat positif. Dans notre exemple de candidature à l'université, le résultat négatif est "{r} refusés".

Pour mesurer le biais entre les candidats en Californie et en Floride, nous séparant deux tranches du reste de l'ensemble de données :

  • Tranche 1 de l'ensemble de données pour lequel le biais est mesuré. Dans l'exemple de candidature à l'université, nous mesurons le biais pour les candidats de Californie.

  • Tranche 2 de l'ensemble de données par rapport auquel le biais est mesuré. La tranche 2 peut inclure "tout ce qui n'est pas dans la tranche 1" par défaut, mais pour l'exemple de candidature à l'université, nous affectons la tranche 2 aux candidats en Floride.

Dans notre exemple d'ensemble de données de candidatures à l'université, nous avons 200 candidats en Californie dans la tranche 1, et 100 candidats en Floride dans la tranche 2. Après l'entraînement du modèle, nous avons les matrices de confusion suivantes :

Candidats en Californie Acceptations (prédites) Refus (prédits)
Acceptations (vérité terrain) 50 (vrais positifs) 10 (faux négatifs)
Refus (vérité terrain) 20 (faux positifs) 120 (vrais négatifs)
Candidats en Floride Acceptations (prédites) Refus (prédits)
Acceptations (vérité terrain) 20 (vrais positifs) 0 (faux négatifs)
Refus (vérité terrain) 30 (faux positifs) 50 (vrais négatifs)

En comparant les métriques entre les deux matrices de confusion, nous pouvons mesurer les biais en répondant à des questions telles que : "Le modèle a-t-il un meilleur rappel pour une tranche que pour l'autre ?"

Nous utilisons également la forme abrégée suivante pour représenter les données de vérité terrain étiquetées, où i représente le nombre de tranches (1 ou 2) :

\( l^0_i = tn_i + fp_i \)
Pour la tranche i, nombre de résultats négatifs étiquetés = vrais négatifs + faux positifs.

\( l^1_i = fn_i + tp_i \)
Pour la tranche i, nombre de résultats positifs étiquetés = faux négatifs + vrais positifs.

Notez les points suivants concernant l'exemple de base de données de candidature à l'université :

  • Certaines métriques d'impartialité peuvent également être généralisées pour différents résultats, mais nous utilisons la classification binaire pour plus de simplicité.

  • L'exemple se concentre sur la tâche de classification, mais certaines métriques d'impartialité se généralisent à d'autres problèmes, tels que la régression.

  • Pour cet exemple, nous partons du principe que les données d'entraînement et les données de test sont les mêmes.

Étapes suivantes