Trabalhar com o Data Catalog

O Data Catalog é um recurso do Dataplex que se integra ao BigQuery ao catalogar automaticamente os metadados sobre recursos do BigQuery, como tabelas, conjuntos de dados, visualizações e modelos. Este documento descreve como pesquisar esses recursos, visualizar a linhagem de dados e adicionar tags usando o Data Catalog.

Pesquisar recursos do BigQuery

Para usar o Data Catalog para pesquisar conjuntos de dados, tabelas e projetos com estrela do BigQuery, siga estas etapas:

  1. No console do Google Cloud, acesse a página Pesquisa do Dataplex.

    Acesse Pesquisar

  2. No campo Pesquisar, digite uma consulta e clique em Pesquisar.

    Com a pesquisa do Data Catalog, é possível encontrar dados nos projetos e nas organizações.

    Para refinar os parâmetros de pesquisa, use o painel Filtros. Por exemplo, na seção Sistemas, marque a caixa de seleção BigQuery. Os resultados são filtrados para sistemas do BigQuery.

É possível fazer pesquisas básicas no Data Catalog por meio do console do Google Cloud. Para mais informações sobre como pesquisar no console do Google Cloud, consulte Abrir um conjunto de dados público.

Linhagem de dados

A linhagem de dados é um recurso do Dataplex que permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles. É possível acessar o recurso de linhagem de dados diretamente no BigQuery.

A ativação da linhagem de dados no projeto do BigQuery faz com que o Dataplex registre automaticamente as informações de linhagem para tabelas criadas pelas seguintes operações:

Antes de começar

Nesta seção, você ativa a API Data Lineage e concede papéis do Gerenciamento de identidade e acesso (IAM, na sigla em inglês) que concedem aos usuários as permissões necessárias para executar cada tarefa neste documento.

Ativar a linhagem de dados

  1. No console do Google Cloud, na página do seletor de projetos, selecione o projeto que contém os recursos com a linhagem que você quer rastrear.

    Acessar o seletor de projetos

  2. Ative as APIs Data Lineage e Data Catalog.

    Ative as APIs

Papéis do IAM obrigatórios

As informações de linhagem são rastreadas automaticamente quando você ativa a API Data Lineage.

Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis de IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Para mais informações, consulte Papéis de linhagem de dados.

Ver gráficos de linhagem no BigQuery

Para visualizar o gráfico de visualização da linhagem de dados do BigQuery, siga estas etapas:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e o conjunto de dados e selecione uma tabela.

  3. Clique na guia Linhagem.

    Guia "Linhagem de dados".

    Seu gráfico de visualização da linhagem de dados é mostrado.

    Gráfico de linhagem de dados.

  4. Opcional: selecione um nó para ver mais detalhes sobre as entidades ou processos envolvidos na criação de informações de linhagem.

Para mais informações sobre a linhagem de dados, consulte Sobre a linhagem de dados.

Tags e modelos de tag

Com as tags, as organizações podem criar, pesquisar e gerenciar metadados de todas as entradas de dados em um serviço unificado.

Nesta seção, explicamos dois conceitos importantes do Data Catalog:

  • Tags permitem fornecer contexto para uma entrada de dados anexando campos de metadados personalizados.

  • Os modelos de tag são estruturas reutilizáveis que podem ser usadas para criar novas tags rapidamente.

Tags

O Data Catalog oferece dois tipos de tags: particulares e públicas.

Tags particulares

As tags particulares fornecem controles de acesso rigorosos. Só é possível pesquisar ou ver as tags e as entradas de dados associadas se você receber as permissões para visualização necessárias no modelo de tag particular e nas entradas de dados.

A pesquisa de tags particulares na página do Data Catalog exige que você use a sintaxe de pesquisa tag: ou os filtros de pesquisa.

As tags privadas são adequadas para cenários em que você precisa armazenar algumas informações confidenciais na tag e quer aplicar outras restrições de acesso além de verificar se o usuário tem as permissões para visualizar a entrada marcada.

Tags públicas

As tags públicas fornecem controle de acesso menos rigoroso para pesquisar e visualizar a tag em comparação com as tags particulares. Qualquer usuário que tenha as permissões para visualização necessárias para uma entrada de dados pode ver todas as tags públicas associadas a ela. As permissões para visualização das tags públicas são necessárias somente quando você realiza uma pesquisa no Data Catalog usando a sintaxe tag: ou ao visualizar um modelo de tag não anexado.

As tags públicas são compatíveis com a pesquisa simples e com predicados na página de pesquisa do Data Catalog. Quando você cria um modelo de tag, a opção de criar um modelo público é a opção padrão e recomendada no console do Google Cloud.

Por exemplo, digamos que você tenha um modelo de tag pública chamado employee data usado para criar tags para três entradas de dados chamadas Name, Location e Salary. Entre as três entradas de dados, apenas membros de um grupo específico chamado HR podem visualizar a entrada de dados Salary. As outras duas entradas de dados têm permissões de visualização para todos os funcionários da empresa.

Se algum funcionário que não for membro do grupo HR usar a página de pesquisa do Data Catalog e pesquisar com a palavra employee, o resultado da pesquisa exibirá apenas entradas de dados Name e Location com as tags públicas associadas.

As tags públicas são úteis em um amplo conjunto de cenários. As tags públicas são compatíveis com a pesquisa simples e a pesquisa com predicados, enquanto as tags particulares são compatíveis apenas com a pesquisa com predicados.

Modelos de tag

Para começar a marcar os metadados, primeiro é necessário criar um ou mais modelos de tag. Um modelo de tag pode ser um modelo público ou particular. Ao criar um modelo de tag, a opção de criar um modelo de tag pública é a opção padrão e recomendada no Console do Google Cloud. Um modelo de tag é um grupo de pares de chave-valor de metadados chamados campos. Ter um conjunto de modelos é semelhante a ter um esquema de banco de dados para os metadados.

É possível estruturar suas tags por tópico. Exemplo:

  • Uma tag data governance com campos para: gerente de dados, data de retenção, data de exclusão, PII (sim ou não), classificação de dados (pública, confidencial, confidencial, regulamentar)
  • Uma tag data quality com campos para problemas de qualidade, frequência de atualização e informações de SLO.
  • Uma tag data usage com campos para os principais usuários, as principais consultas, a média de usuários diários

Depois, combine as tags, usando apenas as que forem relevantes para cada recurso de dados e necessidades do seu negócio.

Para ajudar você a começar, o Data Catalog inclui uma galeria de modelos de tag de exemplo para ilustrar casos de uso de tags comuns. Use esses exemplos para saber mais sobre o poder da inclusão de tags, como inspiração ou como ponto de partida para criar sua própria infraestrutura de inclusão de tags.

Para usar uma galeria de modelo de tag, execute as seguintes etapas:

  1. No console do Google Cloud, acesse a página Modelos de tag do Dataplex.

    Acesse Modelos de tag

  2. Clique em Criar modelo de tag.

    A galeria de modelos vai ser exibida como parte da página Criar modelo.

Depois de selecionar um modelo da galeria, use-o como qualquer outro modelo de tag. É possível adicionar ou excluir atributos e alterar qualquer coisa no modelo para atender às necessidades do seu negócio. Em seguida, pesquise os campos e valores do modelo usando o Data Catalog.

Para mais informações sobre tags e modelos de tag, consulte Tags e modelos de tag.

Recursos regionais

Todos os modelos de tag e tags são armazenados em uma determinada região do Google Cloud. É possível usar um modelo de tag para criar tags em qualquer região. Portanto, não é necessário criar cópias do modelo se você tiver entradas de metadados distribuídas em várias regiões.