Questa pagina è stata tradotta dall'API Cloud Translation.

Caricamento in batch dei dati mediante l'API Storage Write

Questo documento descrive come utilizzare l'API BigQuery Storage Write per caricare i dati in batch in BigQuery.

Negli scenari di caricamento batch, un'applicazione scrive i dati e li esegue il commit come singola transazione atomica. Quando utilizzi l'API Storage Write per caricare i dati in batch, crea uno o più flussi di tipo in attesa. Il tipo in attesa supporta le transazioni a livello di flusso. I record vengono memorizzati nel buffer in stato di attesa finché non esegui il commit del flusso.

Per i carichi di lavoro batch, puoi anche utilizzare l'API Storage Write tramite il connettore Apache Spark SQL per BigQuery con Dataproc, anziché scrivere codice API Storage Write personalizzato.

L'API Storage Write è particolarmente adatta per un'architettura di pipeline di dati. Un processo principale crea diversi flussi. Per ogni flusso, assegna un thread worker o un processo separato per scrivere una parte dei dati in batch. Ogni worker crea una connessione al proprio stream, scrive i dati e finalizza il flusso al termine dell'operazione. Dopo che tutti i worker segnalano il completamento del processo principale, il processo principale esegue il commit dei dati. In caso di errore, la parte dei dati assegnata non verrà mostrata nei risultati finali e l'intero worker può essere ritentato in sicurezza. In una pipeline più sofisticata, i worker controllano il loro avanzamento riportando l'ultimo offset scritto nel processo principale. Questo approccio può generare una pipeline solida e resiliente in caso di errori.

Carica in gruppo i dati utilizzando il tipo in attesa

Per utilizzare il tipo In attesa, l'applicazione esegue le seguenti operazioni:

Chiama CreateWriteStream per creare uno o più stream di tipo in attesa.
Per ogni flusso, chiama AppendRows in un loop per scrivere batch di record.
Per ogni stream, chiama FinalizeWriteStream. Dopo aver chiamato questo metodo, non puoi scrivere altre righe nel flusso. Se chiami AppendRows dopo aver chiamato FinalizeWriteStream, viene restituito un valore StorageError con StorageErrorCode.STREAM_FINALIZED nell'errore google.rpc.Status. Per saperne di più sul modello di errore google.rpc.Status, consulta Errori.
Chiama BatchCommitWriteStreams per eseguire il commit degli stream. Dopo aver chiamato questo metodo, i dati diventano disponibili per la lettura. Se si verifica un errore durante il commit di uno dei flussi, l'errore viene restituito nel campo stream_errors di BatchCommitWriteStreamsResponse.

Il commit è un'operazione atomica e puoi eseguire il commit di più flussi contemporaneamente. È possibile eseguire il commit di un flusso solo una volta, quindi se l'operazione non riesce, puoi ritentare l'operazione in sicurezza. Finché non esegui il commit di un flusso, i dati restano in attesa e non sono visibili per le letture.

Dopo che il flusso è stato finalizzato e prima dell'esecuzione del commit, i dati possono rimanere nel buffer per un massimo di 4 ore. Il commit degli stream in attesa deve essere eseguito entro 24 ore. Esiste un limite di quota per la dimensione totale del buffer del flusso in attesa.

Il seguente codice mostra come scrivere dati in tipo In attesa: