Metriche di Cloud Monitoring per Vertex AI

Vertex AI esporta le metriche in Cloud Monitoring. Alcune di queste metriche vengono mostrate anche nella console Google Cloud di Vertex AI. Puoi usare Cloud Monitoring per creare dashboard o configurare avvisi basati sulle metriche. Ad esempio, puoi ricevere avvisi se la latenza di previsione di un modello in Vertex AI diventa troppo elevata.

Le seguenti sezioni descrivono le metriche fornite nella console Google Cloud di Vertex AI, che potrebbero essere metriche dirette o calcolate che Vertex AI invia a Cloud Monitoring.

Per visualizzare un elenco della maggior parte delle metriche che Vertex AI esporta in Cloud Monitoring, consulta la sezione"aiplatform" della pagina delle metriche di Monitoring Google Cloud. Per le metriche di addestramento personalizzato, consulta i tipi di metriche che iniziano con training nella sezione "ml" di quella pagina.

Metriche di monitoraggio dell'addestramento personalizzato

Quando esegui l'addestramento personalizzato, puoi monitorare i seguenti tipi di utilizzo delle risorse per ciascun nodo di addestramento:

  • Utilizzo di CPU o GPU di ciascun nodo di addestramento
  • Utilizzo della memoria di ogni nodo di addestramento
  • Utilizzo della rete (byte inviati al secondo e byte ricevuti al secondo)

Se utilizzi l'ottimizzazione degli iperparametri, puoi visualizzare le metriche per ogni prova.

Per visualizzare queste metriche dopo aver avviato l'addestramento personalizzato:

  1. Nella console Google Cloud, vai a una delle pagine seguenti, a seconda che utilizzi l'ottimizzazione degli iperparametri:

  2. Fai clic sul nome della risorsa di addestramento personalizzato.

    Se hai creato una risorsa TrainingPipeline personalizzata, fai clic sul nome del job creato dal TrainingPipeline, ad esempio TRAINING_PIPELINE_NAME-custom-job o TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Fai clic sulla scheda CPU, GPU o Rete per visualizzare i grafici sull'utilizzo per la metrica che ti interessa.

    Se utilizzi l'ottimizzazione degli iperparametri, puoi fare clic su una riga nella tabella Prove di ottimizzazione degli iperparametri per visualizzare le metriche relative a una prova specifica.

Per visualizzare le metriche precedenti o personalizzare il modo in cui visualizzi le metriche, utilizza Monitoring. Vertex AI esporta le metriche di addestramento personalizzato in Monitoring sotto forma di tipi di metriche con il prefisso ml.googleapis.com/training. Il tipo di risorsa monitorata è cloudml_job.

Tieni presente che AI Platform Training esporta le metriche in Monitoring con gli stessi tipi di metriche e lo stesso tipo di risorsa.

Metriche di monitoraggio degli endpoint

Dopo aver eseguito il deployment di un modello in un endpoint, puoi monitorare l'endpoint per comprendere le prestazioni e l'utilizzo delle risorse del modello. Puoi monitorare metriche quali pattern di traffico, percentuali di errori, latenza e utilizzo delle risorse per garantire che il tuo modello risponda in modo coerente e prevedibile alle richieste. Ad esempio, potresti eseguire nuovamente il deployment del modello con un tipo di macchina diverso per ottimizzare i costi. Dopo aver apportato la modifica, puoi monitorare il modello per verificare se le modifiche hanno influito negativamente sulle sue prestazioni.

In Cloud Monitoring, il tipo di risorsa monitorata per i modelli di cui è stato eseguito il deployment è aiplatform.googleapis.com/Endpoint.

Metriche sul rendimento

Le metriche sulle prestazioni possono aiutarti a trovare informazioni su pattern di traffico, errori e latenza del modello. Puoi visualizzare le seguenti metriche sulle prestazioni nella console Google Cloud.

  • Previsioni al secondo: il numero di previsioni al secondo sia per le previsioni online che per quelle batch. Se hai più di un'istanza per richiesta, ogni istanza viene conteggiata in questo grafico.
  • Percentuale di errori di previsione: la percentuale di errori generati dal modello. Una percentuale elevata di errori potrebbe indicare un problema con il modello o con le richieste al modello. Visualizza il grafico dei codici di risposta per determinare quali errori si verificano.
  • Latenza del modello (solo per modelli tabulari e personalizzati): il tempo impiegato per il calcolo.
  • Latenza overhead (solo per modelli tabulari e personalizzati): il tempo totale dedicato all'elaborazione di una richiesta, al di fuori del calcolo.
  • Durata totale della latenza: il tempo totale di una richiesta nel servizio, ovvero la latenza del modello più la latenza overhead.

Utilizzo delle risorse

Le metriche di utilizzo delle risorse consentono di tenere traccia dell'utilizzo della CPU, della memoria e della rete da parte del modello. Puoi visualizzare le seguenti metriche di utilizzo nella console Google Cloud.

  • Conteggio repliche: il numero di repliche attive utilizzate dal modello di cui è stato eseguito il deployment.
  • Destinazione di replica: il numero di repliche attive richieste per il modello di cui è stato eseguito il deployment.
  • Utilizzo CPU: percentuale di utilizzo attuale dei core della CPU della replica del modello di cui è stato eseguito il deployment. Il 100% rappresenta un core CPU completamente utilizzato, quindi una replica può raggiungere un utilizzo superiore al 100% se il suo tipo di macchina ha più core.
  • Memoria utilizzata: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment e attualmente in uso.
  • Byte di rete inviati: il numero di byte inviati sulla rete dalla replica del modello di cui è stato eseguito il deployment.
  • Byte di rete ricevuti: il numero di byte ricevuti sulla rete dalla replica del modello di cui è stato eseguito il deployment.
  • Ciclo di servizio medio dell'acceleratore: la frazione di tempo media nell'ultimo periodo campione durante il quale uno o più acceleratori sono stati attivamente elaborati.
  • Utilizzo memoria acceleratore: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment.

Visualizza i grafici delle metriche di monitoraggio degli endpoint

  1. Vai alla pagina Endpoint di Vertex AI nella console Google Cloud.

    Vai alla pagina Endpoint

  2. Fai clic sul nome di un endpoint per visualizzarne le metriche.

  3. Sotto gli intervalli del grafico, fai clic su Prestazioni o Utilizzo delle risorse per visualizzare le metriche relative alle prestazioni o all'utilizzo delle risorse.

    Puoi selezionare diversi intervalli del grafico per visualizzare i valori delle metriche in un determinato periodo di tempo, ad esempio 1 ora, 12 ore o 14 giorni.

    Se hai eseguito il deployment di più modelli nell'endpoint, puoi selezionare o deselezionare i modelli per visualizzare o nascondere le metriche per determinati modelli. Se selezioni più modelli, la console raggruppa alcune metriche del modello in un unico grafico. Ad esempio, se una metrica fornisce un solo valore per modello, la console raggruppa le metriche del modello in un singolo grafico, ad esempio l'utilizzo della CPU. Per le metriche che possono avere più valori per modello, la console fornisce un grafico per ciascun modello. Ad esempio, la console fornisce un grafico del codice di risposta per ogni modello.

Metriche di monitoraggio del Feature Store Vertex AI

Dopo aver creato un featurestore, puoi monitorarne le prestazioni e l'utilizzo delle risorse, ad esempio le latenze di pubblicazione dell'archiviazione online o il numero di nodi di archiviazione online. Ad esempio, puoi aggiornare il numero di nodi di archiviazione online di un archivio di caratteristiche e quindi monitorare le modifiche alle metriche di pubblicazione dello spazio di archiviazione online.

In Cloud Monitoring, il tipo di risorsa monitorata per un archivio di caratteristiche è aiplatform.googleapis.com/Featurestore.

Metriche

  • Dimensione richiesta: le dimensioni della richiesta per tipo di entità nel tuo archivio di caratteristiche.
  • Scrittura nello spazio di archiviazione offline per scrittura in streaming: il numero di richieste di scrittura di flussi di dati elaborate per l'archiviazione offline.
  • Tempo di ritardo di scrittura dei flussi di dati nello spazio di archiviazione offline: il tempo (in secondi) trascorso tra la chiamata all'API di scrittura e la scrittura nello spazio di archiviazione offline.
  • Conteggio nodi: il numero di nodi di pubblicazione online per il tuo archivio di caratteristiche.
  • Latenza: il tempo totale trascorso nel servizio da una richiesta di pubblicazione online o di importazione di flussi di dati.
  • Query al secondo: il numero di query di pubblicazione online o di importazione di flussi di dati gestite dal tuo archivio di caratteristiche.
  • Percentuale di errori: la percentuale di errori prodotti dal tuo archivio di caratteristiche durante la gestione delle richieste di pubblicazione online o di importazione di flussi di dati.
  • Utilizzo CPU: la frazione di CPU allocata dall'archivio di caratteristiche e attualmente in uso dall'archiviazione online. Questo numero può superare il 100% se lo spazio di archiviazione per la pubblicazione online è sovraccarico. Valuta la possibilità di aumentare il numero di nodi di pubblicazione online dell'archivio di caratteristiche per ridurre l'utilizzo della CPU.
  • Utilizzo CPU - nodo più attivo: il carico della CPU per il nodo più attivo nello spazio di archiviazione online del Featurestore.
  • Archiviazione offline totale: la quantità di dati archiviati nello spazio di archiviazione offline dell'archivio di caratteristiche.
  • Spazio di archiviazione online totale: la quantità di dati archiviati nello spazio di archiviazione online dell'archivio di caratteristiche.
  • Velocità effettiva di pubblicazione online: la velocità effettiva per le richieste di pubblicazione online, espressa in MB/s.

Visualizza i grafici delle metriche di monitoraggio dell'archivio di caratteristiche

  1. Vai alla pagina Funzionalità di Vertex AI nella console Google Cloud.

    Vai alla pagina Funzionalità

  2. Nella colonna Featurestore, fai clic sul nome di un archivio di caratteristiche per visualizzarne le metriche.

    Puoi selezionare diversi intervalli del grafico per visualizzare i valori delle metriche in un determinato periodo di tempo, ad esempio 1 ora, 1 giorno o 1 settimana.

    Per alcune metriche di pubblicazione online, puoi scegliere di visualizzare le metriche per un determinato metodo, che suddivide ulteriormente le metriche per tipo di entità. Ad esempio, puoi visualizzare la latenza per i metodi ReadFeatureValues o StreamingReadFeatureValues.