Introduzione alla valutazione del modello per l'equità

Un flusso di lavoro basato sul machine learning può includere la valutazione dell'equità del tuo modello. Un modello sleale mostra bias sistemici che possono causare danni, in particolare ai gruppi tradizionalmente sottorappresentati. Un modello sleale può avere un rendimento peggiore per alcuni sottoinsiemi, o sezioni, del set di dati.

Puoi rilevare i bias durante il processo di raccolta dei dati o di valutazione post-addestramento. Vertex AI fornisce le seguenti metriche di valutazione del modello per aiutarti a valutare il bias:

  • Metriche di differenziazione dei dati: prima di addestrare e creare il modello, queste metriche rilevano se i dati non elaborati includono bias. Ad esempio, un set di dati per il rilevamento del sorriso potrebbe contenere meno persone anziane rispetto ai più giovani. Molte di queste metriche si basano sulla quantificazione della distanza tra la distribuzione delle etichette per diversi gruppi di dati:

    • Differenza nella dimensione della popolazione.

    • Differenza delle proporzioni positive nelle etichette vere.

  • Metriche di bias del modello: dopo aver addestrato il modello, queste metriche rilevano se le previsioni del modello includono bias. Ad esempio, un modello potrebbe essere più preciso per un sottoinsieme di dati rispetto al resto dei dati:

    • Differenza di accuratezza.

    • Differenza delle proporzioni positive nelle etichette previste.

    • Differenza di richiamo.

    • Differenza di specificità.

    • Differenza nel rapporto dei tipi di errore.

Per informazioni su come includere i componenti della pipeline per il bias di valutazione dei modelli nell'esecuzione della pipeline, consulta Componente Valutazione dei modelli.

Panoramica del set di dati di esempio

Per tutti gli esempi relativi alle metriche di equità, utilizziamo un ipotetico set di dati di ammissione all'università con caratteristiche come i voti delle scuole superiori, lo stato e l'identità di genere di un candidato. Vogliamo misurare se il college ha pregiudizi nei confronti dei candidati in California o in Florida.

Le etichette target, o tutti i risultati possibili, sono:

  • Accetta il richiedente con una borsa di studio (p).

  • Accetta il richiedente senza una borsa di studio (q)

  • Rifiuta il richiedente (r).

Possiamo supporre che gli esperti in materia di ammissione abbiano fornito queste etichette come dati empirici reali. Tieni presente che è possibile che anche queste etichette di esperti siano di parte, poiché sono state assegnate da persone.

Per creare un esempio di classificazione binaria, possiamo raggruppare le etichette per creare due possibili risultati:

  • Risultato positivo, indicato come 1. Possiamo raggruppare p e q nel risultato positivo di "accettato {p,q}".

  • Risultato negativo, indicato come 0. Può trattarsi di una raccolta di ogni altro risultato oltre a quello positivo. Nell'esempio di candidatura per l'università, il risultato negativo è "respinto {r}".

Per misurare il bias tra i candidati in California e Florida, separiamo due sezioni dal resto del set di dati:

  • Sezione 1 del set di dati per la quale viene misurato il bias. Nell'esempio di candidatura per l'università, stiamo misurando i bias per i candidati provenienti dalla California.

  • Sezione 2 del set di dati in base alla quale viene misurato il bias. La sezione 2 può includere "tutto ciò che non è nella sezione 1" per impostazione predefinita, ma per l'esempio di candidatura universitaria, stiamo assegnando la sezione 2 ai candidati della Florida.

Nel nostro esempio di set di dati per le applicazioni universitarie, abbiamo 200 candidati dalla California nella sezione 1 e 100 in Florida nella sezione 2. Dopo aver addestrato il modello, abbiamo le seguenti matrici di confusione:

Candidati in California Accettazioni (previste) Rifiuti (previsti)
Accettazioni (dati empirici reali) 50 (veri positivi) 10 (falsi negativi)
Rifiuti (dati empirici reali) 20 (falsi positivi) 120 (veri negativi)
Richiedenti in Florida Accettazioni (previste) Rifiuti (previsti)
Accettazioni (dati empirici reali) 20 (veri positivi) 0 (falsi negativi)
Rifiuti (dati empirici reali) 30 (falsi positivi) 50 (veri negativi)

Confrontando le metriche tra le due matrici di confusione, possiamo misurare i bias rispondendo a domande come "Il modello ha un ricordo migliore per una sezione rispetto all'altra?"

Utilizziamo anche la seguente scorciatoia per rappresentare dati empirici reali etichettati, dove i rappresenta il numero di sezione (1 o 2):

\( l^0_i = tn_i + fp_i \)
Per la sezione i, numero di risultati negativi etichettati = veri negativi + falsi positivi.

\( l^1_i = fn_i + tp_i \)
Per la sezione i, numero di risultati positivi etichettati = falsi negativi + veri positivi.

Tieni presente quanto segue in merito all'esempio di set di dati per le applicazioni universitarie:

  • Alcune metriche di equità possono essere generalizzate anche per più risultati, ma utilizziamo la classificazione binaria per semplicità.

  • L'esempio si concentra sull'attività di classificazione, ma alcune metriche di equità generalizzano altri problemi come la regressione.

  • Per questo esempio, supponiamo che i dati di addestramento e i dati di test siano gli stessi.

Passaggi successivi