Panoramica del servizio di valutazione dell'IA generativa

Questa pagina fornisce una panoramica del servizio di valutazione dell'AI generativa, che consente di valutare le prestazioni del modello in casi d'uso specifici. Potresti anche fare riferimento alla valutazione come osservabilità nelle prestazioni di un modello. Il servizio di valutazione dell'AI generativa consente di monitorare le prestazioni del modello in condizioni diverse, fornendo insight che consentono di ottimizzare il modello in base al caso d'uso specifico.

Le classifiche possono fornire metriche sulle prestazioni generali del modello, ma non sulle prestazioni del modello in casi d'uso specifici. Quando sviluppi modelli linguistici di grandi dimensioni (LLM), è importante valutarli utilizzando criteri specifici per il tuo caso d'uso.

Le valutazioni aiutano a garantire che i modelli possano adattarsi ai requisiti specifici del dominio di diversi utenti. Valutando i modelli sulla base di benchmark e obiettivi definiti dall'utente, puoi applicare l'ingegneria dei prompt e l'ottimizzazione dei modelli per allinearti meglio alle attività che offri. Queste valutazioni vengono utilizzate per guidare lo sviluppo e il miglioramento dei modelli, garantendo al contempo che i modelli siano utili, sicuri ed efficaci per gli utenti.

Per valutare un modello che non è di grandi dimensioni di IA generativa, consulta Valutazione dei modelli in Vertex AI.

Esempi di casi d'uso

I modelli di AI generativa vengono valutati come benchmark per le prestazioni dei modelli e per guidarne lo sviluppo e il perfezionamento strategici. Questo processo aiuta a garantire che i modelli di AI generativa siano allineati con le esigenze della tua azienda. La valutazione del modello offre diversi vantaggi a seconda delle diverse fasi di sviluppo. In pre-produzione, puoi usare la valutazione del modello per selezionarlo e personalizzarlo. In fase di produzione, puoi monitorare le prestazioni del modello per assicurarti che siano efficaci.

La valutazione dell'IA generativa può essere applicata a una serie di scenari d'uso, tra cui:

  • Seleziona i modelli preaddestrati: scegli un modello preaddestrato per un'attività o un'applicazione specifica valutando le prestazioni del modello sulle attività di benchmark associate.
  • Configura le impostazioni di generazione dei modelli: ottimizza le impostazioni di configurazione dei parametri di generazione dei modelli, ad esempio temperature, che possono migliorare le prestazioni delle attività.
  • Prompt engineering utilizzando un modello: progetta prompt più efficaci che permettano di generare output di qualità superiore, migliorando l'interazione con il modello.
  • Migliora e salvaguarda il perfezionamento: perfeziona i processi per migliorare le prestazioni del modello evitando di bias o comportamenti indesiderati.

Per ulteriori informazioni sui modelli linguistici generativi, consulta Blocchi note di valutazione.

Servizi di valutazione

Vertex AI offre due opzioni di servizio per la valutazione dei modelli di IA generativa. Scegli il servizio più adatto al tuo caso d'uso:

Servizio Caso d'uso
Valutazione online (valutazione rapida) Alcuni casi da valutare. Workflows che richiedono iterazioni rapide.
Valutazione della pipeline (AutoSxS e basata su calcolo) Numerose istanze da valutare. Flussi di lavoro asincroni e MLOps. Modelli di valutazione basati su Vertex AI Pipelines.

Valutazione rapida

Il servizio di valutazione rapida produce valutazioni sincrone e a bassa latenza su piccoli batch di dati. Puoi eseguire valutazioni on demand e integrare il servizio online con altri servizi Vertex AI utilizzando l'SDK Vertex AI per Python. L'uso dell'SDK rende il servizio online adattabile a vari casi d'uso.

Il servizio online è più adatto per casi d'uso che coinvolgono piccoli batch di dati o quando è necessario eseguire rapidamente l'iterazione e gli esperimenti.

Valutazione della pipeline: AutoSxS e basata su calcolo

I servizi di pipeline di valutazione offrono opzioni end-to-end per valutare i modelli di AI generativa. Queste opzioni utilizzano Vertex AI Pipelines per orchestrare una serie di passaggi relativi alla valutazione, come la generazione delle risposte dei modelli, la chiamata al servizio di valutazione online e il calcolo delle metriche. Questi passaggi possono anche essere chiamati singolarmente in pipeline personalizzate.

Poiché Vertex AI Pipelines è serverless, esiste una latenza di avvio più elevata associata all'uso delle pipeline per la valutazione. Pertanto, questo servizio è più adatto per job di valutazione di grandi dimensioni, flussi di lavoro in cui le valutazioni non sono immediatamente necessarie e l'integrazione nelle pipeline MLOps.

Offriamo due pipeline di valutazione separate, come segue:

Paradigmi di valutazione

Le valutazioni dell'IA generativa funzionano grazie a due paradigmi per la valutazione dei modelli, che includono:

A un punto

La valutazione puntiforme valuta le prestazioni di un singolo modello. Ti aiuta a comprendere le prestazioni del modello in relazione a un'attività specifica, ad esempio summarization o una dimensione, come instruction following. Il processo di valutazione include i seguenti passaggi:

  1. I risultati previsti vengono generati dal modello in base al prompt di input.
  2. La valutazione viene eseguita in base ai risultati generati.

A seconda del metodo di valutazione, potrebbero essere necessarie coppie di input e di output e i dati empirici reali. Quando sono disponibili dati empirici reali, gli output del modello vengono valutati in base al livello di allineamento con i risultati attesi. Per ulteriori informazioni, consulta Eseguire una valutazione basata sul calcolo. Se utilizzata senza dati empirici reali, la valutazione si basa sulla risposta del modello ai prompt di input. Viene anche utilizzato un modello di valutazione automatica separato. Per maggiori informazioni, consulta Eseguire la valutazione AutoSxS (valutazione basata su modello a coppie) per produrre metriche personalizzate in base alla natura dell'attività. Ad esempio, potresti utilizzare coherence e relevance in text generation o accuracy in summarization.

Questo paradigma consente di comprendere le capacità di un modello nella generazione di contenuti, fornendo insight sui punti di forza del modello e sulle aree di miglioramento in un contesto autonomo, senza richiedere un confronto diretto con un altro modello.

Pairwise

La valutazione Pairwise viene eseguita confrontando le previsioni di due modelli. Hai un modello A da valutare in base a un modello B, il modello di riferimento. Devi fornire prompt di input che rappresentino il dominio di input utilizzato per il confronto dei modelli. Dato lo stesso prompt di input, il confronto affiancato specifica quale previsione del modello è preferita in base ai criteri di confronto. I risultati della valutazione finale vengono acquisiti da win rate. Questo paradigma può funzionare anche senza bisogno di riferimento a dati empirici reali.

Metodi di valutazione

Esistono due categorie di metrics basate sul metodo di valutazione, che includono:

Metriche basate sul calcolo

Le metriche basate sul calcolo confrontano se i risultati generati tramite LLM sono coerenti con un set di dati empirici reali di coppie di input e di output. Le metriche di uso comune possono essere classificate nei seguenti gruppi:

  • Metriche basate su Lexicon: utilizza la matematica per calcolare le somiglianze di stringa tra i risultati generati tramite LLM e dati empirici reali, ad esempio Exact Match e ROUGE.
  • Metriche basate sul conteggio: aggrega il numero di righe che soddisfano o non rilevano determinate etichette basate su dati empirici reali, come F1-score, Accuracy e Tool Name Match.
  • Metriche basate sull'incorporamento: calcola la distanza tra i risultati generati tramite LLM e i dati empirici reali nello spazio di incorporamento, riflettendo il loro livello di similarità.

Nel servizio di valutazione dell'AI generativa, puoi utilizzare metriche basate sul calcolo tramite la pipeline e l'SDK Python per la valutazione rapida. La valutazione basata sul calcolo potrebbe essere eseguita solo in casi d'uso puntuali. Tuttavia, puoi confrontare direttamente i punteggi delle metriche di due modelli per un confronto tra coppie.

Metriche basate su modello

Un modello di valutazione automatica viene utilizzato per generare metriche di valutazione basate su modelli. Proprio come i valutatori umani, chi esegue valutazioni complesse e articolate. I valutatori automatici cercano di migliorare la valutazione da parte di persone fisiche e noi abbiamo calibrato la qualità offline dei revisori. Proprio come i valutatori umani, il gestore automatico determina la qualità delle risposte attraverso un output di punteggio numerico e fornisce il ragionamento alla base delle sue valutazioni insieme a un livello di confidenza. Per ulteriori informazioni, consulta Visualizzare i risultati della valutazione.

La valutazione basata su modelli è disponibile on demand e valuta i modelli linguistici con prestazioni paragonabili a quelle dei revisori. Alcuni ulteriori vantaggi della valutazione basata su modelli includono quanto segue:

  • Valuta modelli di linguaggio naturale senza dati sulle preferenze umane.
  • Consente di ottenere una scalabilità migliore, aumenta la disponibilità e riduce i costi rispetto alla valutazione dei modelli linguistici con revisori umani.
  • Garantisce la trasparenza delle valutazioni acquisendo le spiegazioni sulle preferenze e i punteggi di affidabilità.

Questo diagramma mostra come funziona la valutazione basata su modelli a coppie, che potrebbe essere eseguita nei casi d'uso a livello di punto e a coppie. Puoi vedere come il gestore automatico esegue la valutazione a coppie nel servizio di pipeline di valutazione, AutoSxS.

Panoramica del funzionamento di AutoSxS

Passaggi successivi