Einführung in die Modellbewertung für Fairness

Ein Workflow für maschinelles Lernen kann auch eine Modellbewertung auf Fairness umfassen. Ein ungerechtes Modell weist eine systemische Verzerrung auf, die vor allem traditionell unterrepräsentierten Gruppen schaden kann. Ein unfaires Modell kann bei bestimmten Teilmengen oder Slices des Datasets schlechter abschneiden.

Sie können Verzerrungen während der Datenerfassung oder der Bewertung nach dem Training feststellen. Vertex AI bietet die folgenden Modellbewertungsmesswerte, mit denen Sie Ihr Modell auf Verzerrungen bewerten können:

  • Daten-Verzerrungsmesswerte: Bevor Sie Ihr Modell trainieren und erstellen, erkennen diese Messwerte, ob Ihre Rohdaten Verzerrungen enthalten. Ein Dataset zur Erkennung, ob eine Person lächelt, kann zum Beispiel viel weniger ältere Menschen enthalten als jüngere. Einige dieser Messwerte basieren auf der Quantifizierung des Abstands zwischen der Labelverteilung für verschiedene Datengruppen:

    • Differenz bei Populationsgröße.

    • Differenz der positiven Proportionen bei den tatsächlichen Labels.

  • Modell-Verzerrungsmesswerte: Nachdem Sie Ihr Modell trainiert haben, erkennen diese Messwerte, ob die Vorhersagen Ihres Modells Verzerrungen enthalten. Beispielsweise ist ein Modell für eine Teilmenge der Daten möglicherweise genauer als der Rest der Daten:

    • Genauigkeitsdifferenz.

    • Differenz der positiven Proportionen in den vorhergesagten Labels.

    • Recall-Differenz.

    • Spezifitätsdifferenz.

    • Differenz im Verhältnis der Fehlertypen.

Wie Sie die Pipelinekomponenten für die Modellbewertungsverzerrung in die Pipelineausführung einbeziehen können, erfahren Sie unter Modellbewertungskomponente.

Beispiel für eine Dataset-Übersicht

Für alle Beispiele im Zusammenhang mit Fairness-Messwerten verwenden wir einen hypothetisches Dataset für Hochschulzulassungen mit Features wie den Highschool-Noten, dem Bundesstaat und der Geschlechtsidentität der Bewerber. Wir wollen messen, ob die Hochschule Bewerber aus Kalifornien oder Florida bevorzugt.

Die Ziellabels, oder alle möglichen Ergebnisse, sind:

  • Bewerber mit Stipendium akzeptieren (p).

  • Bewerber ohne Stipendium akzeptieren (q).

  • Bewerber ablehnen (r).

Wir können davon ausgehen, dass die Zulassungsexperten diese Bezeichnungen als Ground-Truth angegeben haben. Beachten Sie, dass sogar diese Expertenlabels verzerrt sein können, da sie von Menschen zugewiesen wurden.

Für ein binäres Klassifizierungsbeispiel können wir Labels gruppieren, um zwei mögliche Ergebnisse zu erzeugen:

  • Positives Ergebnis, gekennzeichnet als 1. Wir können p und q zu dem positiven Ergebnis „akzeptiert {p,q}“ zusammenfassen.

  • Negatives Ergebnis, gekennzeichnet als 0. Dabei kann es sich um eine Sammlung aller anderen Ergebnisse neben dem positiven Ergebnis handeln. In unserem Beispiel für eine Hochschulbewerbung ist das negative Ergebnis „abgelehnt {r}“.

Zur Messung der Verzerrung zwischen Bewerbern aus Kalifornien und Florida unterscheiden wir zwei Slices vom Rest des Datasets:

  • Slice 1 des Datasets, für das die Verzerrung gemessen wird. Im Beispiel für die Hochschulbewerbung messen wir Verzerrungen für Bewerber aus Kalifornien.

  • Slice 2 des Datasets, mit dem die Verzerrung gemessen wird. Slice 2 kann standardmäßig „alles, was nicht in Slice 1 enthalten ist“ enthalten, aber für das Beispiel der Hochschulbewerbung ordnen wir Slice 2 den Bewerbern aus Florida zu.

In unserem Beispiel-Dataset für Hochschulbewerbungen befinden sich 200 Bewerber aus Kalifornien in Slice 1 und 100 Bewerber aus Florida in Slice 2. Nach dem Training des Modells haben wir die folgenden Wahrheitsmatrizes:

Bewerber aus Kalifornien Zulassungen (prognostiziert) Ablehnungen (prognostiziert)
Zulassungen (Ground Truth) 50 (richtig positive Ergebnisse) 10 (falsch negative Ergebnisse)
Ablehnungen (Ground Truth) 20 (falsch positive Ergebnisse) 120 (richtig negative Ergebnisse)
Bewerber aus Florida Zulassungen (prognostiziert) Ablehnungen (prognostiziert)
Zulassungen (Ground Truth) 20 (richtig positive Ergebnisse) 0 (falsch negative Ergebnisse)
Ablehnungen (Ground Truth) 30 (falsch positive Ergebnisse) 50 (richtig negative Ergebnisse)

Durch den Vergleich von Messwerten zwischen den beiden Wahrheitsmatrizen können wir Verzerrungen messen, wenn wir beispielsweise die Frage beantworten: „Hat das Modell für ein Slice einen besseren Recall als für das andere?“

Außerdem wird die folgende Kurzschreibweise für die Ground-Truth-Daten verwendet, wobei i die Slice-Nummer (1 oder 2) darstellt:

\( l^0_i = tn_i + fp_i \)
Für Slice i gilt: Anzahl der negativen Ergebnisse mit Label = richtig negative Ergebnisse + falsch positive Ergebnisse.

\( l^1_i = fn_i + tp_i \)
Für Slice i gilt: Anzahl der positiven Ergebnisse mit Label = falsch negative Ergebnisse + richtig positive Ergebnisse.

Beachten Sie das folgende Beispiel für das Dataset der Hochschulbewerbung:

  • Einige Fairness-Messwerte können auch für mehrere Ergebnisse verallgemeinert werden, aber der Einfachheit halber verwenden wir die binäre Klassifizierung.

  • Im Beispiel geht es hauptsächlich um die Klassifizierungsaufgabe, aber einige Fairness-Messwerte können bei anderen Problemen wie der Regression verallgemeinert werden.

  • In diesem Beispiel wird davon ausgegangen, dass die Trainingsdaten und Testdaten identisch sind.

Nächste Schritte