Preparare i dati di addestramento

Questa pagina descrive come preparare i dati tabulari per l'addestramento dei modelli di previsione.

Vengono trattati i seguenti argomenti:

  1. Requisiti della struttura dei dati
  2. Preparare l'origine dell'importazione
  3. Aggiungere pesi ai dati di allenamento

Per impostazione predefinita, Vertex AI utilizza un algoritmo di suddivisione cronologica per separare i dati di previsione in tre suddivisioni. In alternativa, puoi utilizzare una suddivisione manuale, ma devi preparare una colonna di suddivisione dati. Scopri di più sulle suddivisioni dei dati.

Requisiti della struttura dei dati

Per i modelli di previsione, i dati di addestramento devono essere conformi ai seguenti requisiti di base:

Tipo di requisito Requisito
Dimensioni Il set di dati deve avere dimensioni massime pari a 100 GB.
N. di colonne Il set di dati deve avere un minimo di 3 e un massimo di 100 colonne. Ciascuna delle osservazioni nel set di dati deve avere un target e un tempo, entrambi fungono da caratteristiche. Inoltre, ogni osservazione deve avere un ID serie temporale che identifica la serie temporale di cui fa parte l'osservazione. Idealmente, i dati di addestramento hanno molte più di tre colonne. Il numero massimo di colonne include sia colonne di feature che non.
Colonna di destinazione Devi specificare una colonna di destinazione. La colonna di destinazione consente a Vertex AI di associare i dati di addestramento al risultato desiderato. Non deve contenere valori nulli e deve essere numerico.
Colonna Data/Ora Devi specificare una colonna temporale, che deve avere un valore per ogni riga. La colonna dell'ora indica l'ora in cui è stata effettuata una determinata osservazione.
Colonna identificatore serie temporale Devi specificare una colonna di identificatori di serie temporali, che deve avere un valore per ogni riga. I dati di addestramento di previsione di solito includono più serie temporali e l'identificatore indica a Vertex AI la serie temporale di cui fa parte una determinata osservazione nei dati di addestramento. Tutte le righe di una determinata serie temporale hanno lo stesso valore nella colonna degli identificatori delle serie temporali. Alcuni identificatori di serie temporali comuni potrebbero essere l'ID prodotto, un ID negozio o una regione. È possibile addestrare un modello di previsione su una singola serie temporale, con lo stesso valore per tutte le righe della colonna dell'identificatore della serie temporale. Tuttavia, Vertex AI è più adatto per dati di addestramento che contengono due o più serie temporali. Per ottenere risultati ottimali, utilizza almeno 10 serie temporali per ogni colonna utilizzata per addestrare il modello.
Formato del nome della colonna Il nome della colonna può includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
N. di righe Il set di dati deve contenere un minimo di 1000 e un massimo di 100.000.000 di righe. A seconda del numero di caratteristiche del set di dati, 1000 righe potrebbero non essere sufficienti per addestrare un modello ad alte prestazioni. Scopri di più.
Formato dei dati Utilizza un formato dei dati stretto (a volte definito lungo). Nel formato ristretto, ogni riga rappresenta l'elemento specificato dall'identificatore di serie temporale per un determinato momento, insieme a tutti i dati relativi all'elemento in quel momento. Scopri come scegliere il formato dei dati.
Intervallo tra le righe L'intervallo tra le righe di addestramento deve essere coerente. Questa è la granularità dei dati: influirà sul modo in cui il modello viene addestrato e sulla frequenza dei risultati della previsione. Scopri come scegliere la granularità dei dati.
Durata delle serie temporali La durata di una serie temporale non deve superare i 3000 passi temporali.

Prepara l'origine dell'importazione

Puoi fornire i dati di addestramento dei modelli a Vertex AI in due formati:

  • Tabelle BigQuery
  • Valori separati da virgola (CSV)

L'origine che utilizzi dipende dalla modalità di archiviazione dei dati, oltre che dalle dimensioni e dalla complessità dei dati. Se il tuo set di dati è di piccole dimensioni e non hai bisogno di tipi di dati più complessi, il formato CSV potrebbe essere più semplice. Per set di dati più grandi che includono array e struct, devi usare BigQuery.

BigQuery

La tabella o la vista BigQuery deve essere conforme ai requisiti per le località di BigQuery.

Se la tabella o la vista BigQuery si trova in un progetto diverso da quello in cui stai creando il set di dati Vertex AI o se la tabella o la vista BigQuery è supportata da un'origine dati esterna, potrebbe essere necessario aggiungere uno o più ruoli all'agente di servizio Vertex AI. Consulta Requisiti per l'aggiunta di ruoli per BigQuery.

Non è necessario specificare uno schema per la tabella BigQuery. Vertex AI deduce automaticamente lo schema per la tabella quando importi i dati.

L'URI BigQuery (specifica la località dei dati di addestramento) deve essere conforme al seguente formato:

bq://<project_id>.<dataset_id>.<table_id>

L'URI non può contenere altri caratteri speciali.

Per informazioni sui tipi di dati BigQuery e su come vengono mappati in Vertex AI, consulta Tabelle BigQuery. Per ulteriori informazioni sull'utilizzo delle origini dati esterne di BigQuery, consulta Introduzione alle origini dati esterne.

CSV

I file CSV possono essere in Cloud Storage o sul tuo computer locale. Devono essere conformi ai seguenti requisiti:

  • La prima riga del primo file deve essere un'intestazione e contenere i nomi delle colonne. Se la prima riga di un file successivo è uguale all'intestazione, viene anch'essa trattata come un'intestazione, in caso contrario viene trattata come dati.
  • I nomi delle colonne possono includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
  • Ogni file non deve superare i 10 GB.

    Puoi includere più file, fino a una dimensione massima di 100 GB.

  • Il delimitatore deve essere una virgola (",").

Non è necessario specificare uno schema per i dati CSV. Vertex AI deduce automaticamente lo schema per la tabella quando importi i dati e utilizza la riga di intestazione per i nomi delle colonne.

Per ulteriori informazioni sul formato file CSV e sui tipi di dati, consulta File CSV.

Se importi i dati da Cloud Storage, devono trovarsi in un bucket che soddisfi i seguenti requisiti:

Se importi i dati dal tuo computer locale, devi avere un bucket Cloud Storage che soddisfi i seguenti requisiti:

Aggiungi pesi ai tuoi dati di allenamento

Per impostazione predefinita, Vertex AI pesa equamente ogni riga di dati di addestramento. Ai fini dell'addestramento, nessuna riga è considerata più importante di un'altra.

A volte, potresti volere che alcune righe abbiano più importanza per l'addestramento. Ad esempio, se stai utilizzando dati sulla spesa, potresti volere che i dati associati a quelli che spendono di più abbiano un impatto maggiore sul modello. Se vuoi evitare di ottenere un risultato specifico, puoi ponderare maggiormente le righe in base a tale risultato.

Per assegnare un peso relativo alle righe puoi aggiungere una colonna relativa al peso al tuo set di dati. La colonna ponderata deve essere una colonna numerica. Il valore del peso può essere compreso tra 0 e 10.000. Valori più alti indicano che la riga è più importante durante l'addestramento del modello. Se la ponderazione è pari a 0, la riga viene ignorata. Se includi una colonna ponderata, deve contenere un valore per ogni riga.

In seguito, durante l'addestramento del modello, specificherai questa colonna come colonna Weight.

Gli schemi di ponderazione personalizzati vengono utilizzati solo per l'addestramento del modello; non influiscono sul set di test utilizzato per la valutazione del modello.

Passaggi successivi