Monitora il tuo cluster Ray su Vertex AI

Questa pagina spiega come visualizzare i log di monitoraggio associati ai tuoi cluster Ray e monitorare le metriche Ray on Vertex AI. Vengono inoltre fornite indicazioni per il debug dei cluster Ray.

Visualizza i log

Quando esegui attività con il cluster Ray su Vertex AI, i log di monitoraggio vengono generati e archiviati automaticamente sia in Cloud Logging che nella dashboard open source Ray. Questa sezione descrive come accedere ai log generati mediante la console Google Cloud.

Prima di iniziare, assicurati di leggere la panoramica di Ray on Vertex AI e di configurare tutti gli strumenti prerequisiti di cui hai bisogno.

Dashboard Ray OSS

Puoi visualizzare i file di log Ray open source tramite la dashboard Ray OSS:

  1. Nella console Google Cloud, vai alla pagina Ray on Vertex AI.

    Vai alla pagina Ray su Vertex AI

  2. Nella riga relativa al cluster che hai creato, seleziona menu Altre azioni.

  3. Seleziona il link alla dashboard Ray OSS. La dashboard si apre in un'altra scheda.

  4. Vai alla visualizzazione Log nell'angolo in alto a destra nel menu:

    seleziona log della dashboard Ray

  5. Fai clic su ciascun nodo per visualizzare i file di log associati.

Console di Cloud Logging

  1. Nel pannello di navigazione della console Google Cloud, seleziona Logging, quindi Esplora log:

    Vai a Esplora log

  2. Seleziona un progetto, una cartella o un'organizzazione Google Cloud esistente.

  3. Per visualizzare tutti i log Ray, inserisci la seguente query nel campo query-editor e fai clic su Esegui query:

    resource.labels.task_name="ray-cluster-logs"
  4. Per restringere i log a un cluster Ray specifico, aggiungi la seguente riga alla query e fai clic su Esegui query:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Sostituisci CLUSTER_NAME con il nome del tuo cluster Ray. Nella console Google Cloud, vai a Vertex AI > Ray on Vertex AI, dove vedrai un elenco dei nomi dei cluster in ogni regione.

  5. Per restringere ulteriormente i log a un file di log specifico come raylet.out, fai clic sul nome del log in Campi log -> Nome log.

  6. Puoi raggruppare voci di log simili:

    1. In Risultati delle query, fai clic su una voce di log per espanderlo.

    2. In jsonPayload, fai clic sul valore tailed_path. Viene visualizzato un menu a discesa.

    3. Fai clic su Mostra le voci corrispondenti.

Monitora metriche

Puoi visualizzare le metriche Ray su Vertex AI in diversi modi utilizzando Google Cloud Monitoring (GCM). In alternativa, puoi esportare le metriche da GCM al tuo server Grafana.

Monitoraggio delle metriche in GCM

Esistono due modi per visualizzare le metriche Ray su Vertex AI in GCM.

  • Utilizza la visualizzazione diretta in Metrics Explorer.
  • Importa la dashboard di Grafana.

Metrics Explorer

Per utilizzare la visualizzazione diretta in Metrics Explorer:

  1. Vai alla console di Google Cloud Monitoring.
  2. In Esplora, seleziona Metrics Explorer.
  3. In Risorse attive, seleziona Target Prometheus. Viene visualizzata la pagina Categorie di metriche attive.
  4. Seleziona Ray.

    Viene visualizzato un elenco di metriche:

    seleziona metrica
  5. Seleziona le metriche da monitorare. Ad esempio:
    1. Scegli la percentuale di utilizzo della CPU come metrica monitorata:
      target di utilizzo
    2. Seleziona un filtro. Ad esempio, seleziona il cluster:
      aggiungi il filtro necessario Utilizza l'ID cluster per monitorare solo le metriche precedenti per un cluster specifico. Per individuare l'ID cluster, segui questi passaggi:
      1. Nella console Google Cloud, vai alla pagina Ray.

        Vai su Ray

      2. Assicurati di essere all'interno del progetto in cui vuoi creare l'esperimento.
        Progetto Vertex AI Select
      3. In Nome viene visualizzato un elenco di ID cluster.
      seleziona metrica
    3. Seleziona il metodo di aggregazione per visualizzare le metriche. Ciò significa che puoi scegliere di visualizzare metriche non aggregate che mostrano l'utilizzo della CPU di ogni processo Ray:
      metriche non aggregate

Dashboard di GCM

Per importare una dashboard Grafana per Ray su Vertex AI, segui le linee guida nella dashboard di Cloud Monitoring, Importa la tua dashboard Grafana.

dashboard di monitoraggio

Ti serve solo un file JSON della dashboard di Grafana. OSS Ray supporta questa configurazione manuale fornendo il file JSON Grafana predefinito della dashboard.

Monitorare le metriche di Grafana di proprietà dell'utente

Se hai già un server Grafana in esecuzione, puoi esportare tutto il cluster Ray sulle metriche Vertex AI Prometheus nel server Grafana esistente. Per farlo, segui le linee guida di GMP sulle query con Grafana. In questo modo puoi aggiungere una nuova origine dati Grafana al server Grafana esistente e utilizzare il sincronizzatore dell'origine dati per sincronizzare la nuova origine dati Grafana Prometheus con le metriche Ray on Vertex AI.

È importante configurare e autenticare l'origine dati Grafana appena aggiunta utilizzando il sincronizzatore delle origini dati. Segui i passaggi indicati in Configurare e autenticare l'origine dati Grafana.

Dopo la sincronizzazione, puoi creare e aggiungere qualsiasi dashboard di cui hai bisogno in base alle metriche Ray on Vertex AI.

Per impostazione predefinita, le raccolte di metriche Ray on Vertex AI sono abilitate. Ecco come disabilitarle utilizzando l'SDK Vertex AI per Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Debug dei cluster Ray

Per eseguire il debug dei cluster Ray, utilizza la shell interattiva del nodo head:

Console Google Cloud

Per accedere alla shell interattiva del nodo head:

  1. Nella console Google Cloud, vai alla pagina Ray on Vertex AI.
    Vai a Ray su Vertex AI
  2. Assicurati di essere nel progetto corretto.
    Progetto Vertex AI Select
  3. Seleziona il cluster da esaminare. Viene visualizzata la sezione Informazioni di base.
  4. Nella sezione Link di accesso, fai clic sul link per la shell interattiva del nodo head. Viene visualizzata la shell interattiva del nodo head.
  5. Segui le istruzioni descritte in Monitorare ed eseguire il debug dell'addestramento con una shell interattiva.

Passaggi successivi