Introdução à transformação de dados

Neste documento, descrevemos as diferentes maneiras de transformar dados nas tabelas do BigQuery.

Métodos de transformação de dados

É possível transformar os dados no BigQuery das seguintes maneiras:

  • Use a linguagem de manipulação de dados (DML, na sigla em inglês) para transformar os dados nas tabelas do BigQuery.
  • Use o Dataform para desenvolver, testar e controlar versões e programar fluxos de trabalho SQL no BigQuery.

Também é possível analisar o histórico de alterações de uma tabela do BigQuery para examinar as transformações feitas em uma tabela em um período especificado.

Transformar dados com DML

Use a linguagem de manipulação de dados (DML, na sigla em inglês) para transformar os dados nas tabelas do BigQuery. Instruções DML são consultas GoogleSQL que manipulam dados de tabelas existentes para adicionar ou excluir linhas, modificar dados em linhas existentes ou mesclar dados com valores de outra tabela. As transformações de DML também são compatíveis com tabelas particionadas.

É possível executar várias instruções DML simultaneamente, em que o BigQuery filtra diversas instruções DML que transformam os dados uma após a outra. O BigQuery gerencia como as instruções DML simultâneas são executadas, com base no tipo de transformação.

Transformar dados com Dataform

O Dataform permite gerenciar a transformação de dados no processo de extração, carregamento e transformação (ELT) para integração de dados. Depois de extrair dados brutos dos sistemas de origem e carregá-los no BigQuery, é possível usar o Dataform para transformá-los em um conjunto de tabelas organizado, testado e documentado. Enquanto na DML você adota uma abordagem imperativa informando ao BigQuery como exatamente transformar seus dados, no Dataform você escreve instruções declarativas em que o Dataform determina a transformação necessária para atingir esse estado.

No Dataform, é possível desenvolver, testar e controlar versões de fluxos de trabalho SQL para transformação de dados, desde declarações de fonte de dados até tabelas de saída, visualizações ou visualizações materializadas. É possível desenvolver fluxos de trabalho SQL com o Dataform Core ou JavaScript puro. O núcleo do Dataform é uma metalinguagem de código aberto que estende o SQL com SQLX e JavaScript. É possível usar o Dataform Core para gerenciar dependências, configurar testes automatizados de qualidade de dados e documentar descrições de tabelas ou colunas no código.

O Dataform armazena o código do fluxo de trabalho SQL em repositórios e usa o Git para rastrear as alterações nos arquivos. Os espaços de trabalho de desenvolvimento no Dataform permitem que você trabalhe no conteúdo do repositório sem afetar o trabalho de outras pessoas que estão trabalhando no mesmo repositório. É possível conectar repositórios do Dataform a provedores Git de terceiros, incluindo Azure DevOps Services, BitBucket, GitHub e GitLab.

É possível executar ou programar fluxos de trabalho SQL com as configurações de versão e de fluxo de trabalho do Dataform. Como alternativa, é possível programar execuções com o Cloud Composer ou com o Workflows e o Cloud Scheduler. Durante a execução, o Dataform executa consultas SQL no BigQuery em ordem de dependências de objetos no fluxo de trabalho SQL. Após a execução, é possível usar suas tabelas e visualizações definidas para análise no BigQuery.

Para saber mais sobre como criar fluxos de trabalho SQL de transformação de dados no Dataform, consulte Visão geral do Dataform e Visão geral dos recursos do Dataform.

A seguir