Utilizza Data Catalog
Data Catalog è una funzionalità di Dataplex che si integra con BigQuery catalogando automaticamente i metadati relativi alle risorse BigQuery come tabelle, set di dati, viste e modelli. Questo documento descrive come cercare queste risorse, visualizzare la derivazione dei dati e aggiungere tag utilizzando Data Catalog.
Cerca risorse BigQuery
Per utilizzare Data Catalog per cercare set di dati, tabelle e progetti speciali di BigQuery, segui questi passaggi:
Nella console Google Cloud, vai alla pagina Ricerca Dataplex.
Nel campo Cerca, inserisci una query, quindi fai clic su Cerca.
Per perfezionare i parametri di ricerca, utilizza il riquadro Filtri. Ad esempio, nella sezione Sistemi, seleziona la casella di controllo BigQuery. I risultati vengono filtrati in base ai sistemi BigQuery.
Puoi eseguire ricerche di base in Data Catalog tramite la console Google Cloud. Per ulteriori informazioni sulla ricerca nella console Google Cloud, consulta Aprire un set di dati pubblico.
Derivazione dei dati
La derivazione dei dati è una funzionalità Dataplex che ti consente di monitorare il modo in cui i dati si spostano attraverso i sistemi: da dove provengono, dove vengono passati e quali trasformazioni vengono applicate. Puoi accedere alla funzionalità di derivazione dei dati direttamente da BigQuery.
Se abiliti la derivazione dei dati nel progetto BigQuery, Dataplex registra automaticamente le informazioni di derivazione per le tabelle create con le seguenti operazioni:
- Job di copia.
Job di query che utilizzano le seguenti istruzioni Data Definition Language (DDL) o DML (Data Manipulation Language) in GoogleSQL:
CREATE TABLE
(compresa l'istruzioneCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Prima di iniziare
In questa sezione, abilita l'API Data Lineage e concedi i ruoli di Identity and Access Management (IAM) che concedono agli utenti le autorizzazioni necessarie per eseguire ogni attività in questo documento.
Abilita derivazione dei dati
- Nella pagina del selettore di progetti della console Google Cloud, seleziona il progetto che contiene le risorse per le quali vuoi monitorare la derivazione.
- Abilita l'API Data Lineage e le API Data Catalog.
Ruoli IAM obbligatori
Le informazioni sulla derivazione vengono monitorate automaticamente quando abiliti l'API Data Lineage.
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Visualizzatore Data Catalog (
roles/datacatalog.viewer
) in un progetto di risorse Data Catalog. -
Visualizzatore derivazione dati (
roles/datalineage.viewer
) sul progetto in cui utilizzi sistemi supportati da derivazione dei dati. -
Metadati BigQuery (
roles/bigquery.metadataViewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per maggiori informazioni, consulta Ruoli di derivazione dei dati.
Visualizzare i grafici di derivazione in BigQuery
Per visualizzare il grafico di visualizzazione della derivazione dei dati da BigQuery:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e il set di dati, poi seleziona una tabella.
Fai clic sulla scheda Lignaggio.
Viene mostrato il grafico di visualizzazione della derivazione dei dati.
(Facoltativo) Seleziona un nodo per visualizzare ulteriori dettagli sulle entità o sui processi coinvolti nella creazione delle informazioni di derivazione.
Per saperne di più sulla derivazione dei dati, vedi Informazioni sulla derivazione dei dati.
Tag e modelli di tag
I tag consentono alle organizzazioni di creare, cercare e gestire i metadati per tutte le voci di dati in un servizio unificato.
Questa sezione illustra due concetti chiave di Data Catalog:
I tag consentono di fornire il contesto per una voce di dati allegando campi di metadati personalizzati.
I modelli di tag sono strutture riutilizzabili per creare rapidamente nuovi tag.
Tag
Data Catalog fornisce due tipi di tag: tag privati e tag pubblici.
Tag privati
I tag privati offrono controlli di accesso rigorosi. Puoi cercare o visualizzare i tag e le voci di dati associate ai tag solo se ti sono state concesse le autorizzazioni di visualizzazione necessarie sia per il modello di tag privato sia per le voci dei dati.
Per cercare tag privati nella pagina Data Catalog, è necessario utilizzare la sintassi di ricerca tag:
o i filtri di ricerca.
I tag privati sono adatti agli scenari in cui devi archiviare alcune informazioni sensibili nel tag e vuoi applicare ulteriori limitazioni di accesso oltre a verificare se l'utente dispone delle autorizzazioni per visualizzare la voce con tag.
Tag pubblici
I tag pubblici offrono un controllo dell'accesso meno rigoroso per la ricerca e la visualizzazione del tag rispetto ai tag privati. Qualsiasi utente che disponga delle autorizzazioni di visualizzazione necessarie
per una voce di dati può visualizzare tutti i tag pubblici associati. Le autorizzazioni di visualizzazione per i tag pubblici sono necessarie solo quando esegui una ricerca in Data Catalog utilizzando la sintassi tag:
o quando visualizzi un modello di tag non collegato.
I tag pubblici supportano sia la ricerca semplice che la ricerca con predicati nella pagina di ricerca di Data Catalog. Quando crei un modello di tag, l'opzione per creare un modello di tag pubblico è l'opzione predefinita e consigliata nella console Google Cloud.
Ad esempio, supponiamo di avere un modello di tag pubblico denominato employee data
, utilizzato per creare tag per tre voci di dati denominate Name
, Location
e Salary
. Tra le tre voci di dati, solo i membri di un gruppo specifico denominato HR
possono visualizzare la voce di dati Salary
. Le altre due voci di dati hanno autorizzazioni di visualizzazione per tutti i dipendenti dell'azienda.
Se un dipendente che non è membro del gruppo HR
utilizza la pagina di ricerca di Data Catalog
e cerca la parola employee
, il risultato della ricerca mostra solo
le voci di dati Name
e Location
con i tag pubblici associati.
I tag pubblici sono utili per molteplici scenari. I tag pubblici supportano ricerche semplici con i predicati, mentre i tag privati supportano solo la ricerca con predicati.
Modelli di tag
Per iniziare a taggare i metadati, devi prima creare uno o più modelli di tag. Un modello di tag può essere pubblico o privato. Quando crei un modello di tag, l'opzione per creare un modello di tag pubblico è l'opzione predefinita e consigliata nella console Google Cloud. Un modello di tag è un gruppo di coppie chiave-valore dei metadati chiamate campi. Avere un set di modelli è come avere uno schema di database per i metadati.
Puoi strutturare i tag per argomento. Ad esempio:
- Un tag
data governance
con campi per Data Governor, data di conservazione, data di eliminazione, PII (sì o no), classificazione dei dati (pubblico, riservato, sensibile, normativo) - Un tag
data quality
con campi per problemi di qualità, frequenza di aggiornamento e informazioni sullo SLO - Un tag
data usage
con campi per utenti principali, query principali, utenti giornalieri medi
Puoi combinare e abbinare i tag utilizzando solo quelli pertinenti per ciascun asset di dati e le esigenze della tua attività.
Visualizza la galleria di modelli di tag
Per aiutarti a iniziare, Data Catalog include una galleria di modelli di tag di esempio per illustrare casi d'uso di tagging comuni. Utilizza questi esempi per scoprire l'efficacia del tagging, per trovare ispirazione o come punto di partenza per creare la tua infrastruttura di tagging.
Per utilizzare una galleria di modelli di tag, segui questi passaggi:
Nella console Google Cloud, vai alla pagina Modelli di tag Dataplex.
Fai clic su Crea modello di tag.
La galleria di modelli viene visualizzata all'interno della pagina Crea modello.
Dopo aver selezionato un modello dalla galleria, puoi utilizzarlo come qualsiasi altro modello di tag. Puoi aggiungere o eliminare attributi e modificare qualsiasi elemento nel modello per adattarlo alle tue esigenze aziendali. Puoi quindi cercare i campi e i valori del modello utilizzando Data Catalog.
Per ulteriori informazioni su tag e modelli di tag, consulta la sezione Tag e modelli di tag.
Risorse a livello di regione
Ogni modello di tag e tag sono archiviati in una determinata regione di Google Cloud. Puoi utilizzare un modello di tag per creare un tag in qualsiasi regione, così non è necessario creare copie del modello se le voci di metadati sono distribuite in più regioni.