Introduzione al framework di risoluzione delle entità BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità è la capacità di abbinare i record nei dati condivisi, se non esistono identificatori comuni, o di aumentare i dati condivisi utilizzando un servizio di identità di un partner Google Cloud.

Il presente documento è destinato agli utenti finali che si occupano di risoluzione delle entità (di seguito utenti finali) e ai provider di identità. Per i dettagli dell'implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per tutti i dati preparati prima di contribuire a una data clean room. La risoluzione delle entità è disponibile sia nei modelli di prezzi on demand che in quelli per capacità e in tutte le versioni di BigQuery.

Vantaggi

In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

Puoi risolvere le entità in loco senza ricorrere alle tariffe per il Data Transfer perché un abbonato o un partner Google Cloud abbina i tuoi dati alla propria tabella delle identità e scrive i risultati delle corrispondenze in un set di dati nel tuo progetto.
Non è necessario gestire i job di estrazione, trasformazione e caricamento (ETL).

In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

Puoi offrire la risoluzione delle entità come un'offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
Puoi utilizzare grafici di identità proprietari e la logica di corrispondenza senza rivelarli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzioni remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. Durante questo processo non è necessario copiare o spostare i dati. Il seguente diagramma e la seguente spiegazione descrivono il flusso di lavoro per la risoluzione delle entità:

Un diagramma che mostra due sezioni principali: un progetto per l'utente finale e un progetto
del provider di identità.

L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al set di dati di input e l'accesso in scrittura al set di dati di output.
L'utente chiama la funzione remota che abbina i dati di input ai dati del grafico di identità del provider. I parametri corrispondenti vengono passati al provider con la funzione remota.
L'account di servizio del provider legge il set di dati di input e lo elabora.
L'account di servizio del provider scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.

Le seguenti sezioni descrivono i componenti degli utenti finali e i progetti dei provider.

Componenti dell'utente finale

I componenti dell'utente finale includono:

Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia il processo di risoluzione dell'entità.
Set di dati di input: il set di dati di origine contenente i dati con cui trovare una corrispondenza. Facoltativamente, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I provider specificano i requisiti dello schema per i set di dati di input.
Set di dati di output: il set di dati di destinazione in cui il provider archivia i risultati corrispondenti come tabella di output. Facoltativamente, il provider può scrivere una tabella dello stato del job contenente i dettagli del job di risoluzione delle entità in questo set di dati. Il set di dati di output può essere uguale al set di dati di input.

Componenti del provider di identità

I componenti del provider di identità includono:

Piano di controllo: contiene una funzione remota di BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come job Cloud Run o come funzione Cloud Functions. Il piano di controllo può contenere anche altri servizi, come autenticazione e autorizzazione.
Piano dati: contiene il set di dati del grafico delle identità e la procedura archiviata che implementa la logica di corrispondenza del provider. La stored procedure può essere implementata come stored procedure SQL o stored procedure di Apache Spark. Il set di dati del grafico delle identità contiene le tabelle con cui vengono abbinati i dati dell'utente finale.

Passaggi successivi

Per scoprire come utilizzare la risoluzione delle entità nel tuo progetto, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.