Introducción a la transformación de datos

En este documento, se describen las diferentes formas en que puedes transformar datos en tus tablas de BigQuery.

Métodos de transformación de datos

Puedes transformar datos en BigQuery de las siguientes maneras:

  • Usa el lenguaje de manipulación de datos (DML) para transformar datos en tus tablas de BigQuery.
  • Usa Dataform para desarrollar, probar, controlar versiones y programar flujos de trabajo de SQL en BigQuery.

También puedes revisar el historial de cambios de una tabla de BigQuery para examinar las transformaciones realizadas a una tabla en un intervalo de tiempo especificado.

Transforma datos con DML

Puedes usar el lenguaje de manipulación de datos (DML) para transformar datos en tus tablas de BigQuery. Las declaraciones DML son consultas de Google SQL que manipulan los datos de tablas existentes para agregar o borrar filas, modificar datos en filas existentes o combinar datos con valores de otra tabla. Las transformaciones de DML también se admiten en tablas particionadas.

Puedes ejecutar varias declaraciones DML de forma simultánea, en las que BigQuery pone en cola varias declaraciones DML que transforman tus datos uno después de otro. BigQuery administra cómo se ejecutan las declaraciones DML simultáneas, en función del tipo de transformación.

Transforma datos con Dataform

Dataform te permite administrar la transformación de datos en el proceso de extracción, carga y transformación (ELT) para la integración de datos. Después de extraer datos sin procesar de los sistemas de origen y cargarlos en BigQuery, puedes usar Dataform para transformarlos en un conjunto de tablas organizado, probado y documentado. Si bien en DML tienes un enfoque imperativo cuando le indicas a BigQuery cómo transformar tus datos, en Dataform, escribes declaraciones declarativas en las que Dataform determina la transformación necesaria para lograr ese estado.

En Dataform, puedes desarrollar, probar y controlar las versiones de los flujos de trabajo de SQL para la transformación de datos desde las declaraciones de fuentes de datos hasta las tablas de salida, las vistas o las vistas materializadas. Puedes desarrollar flujos de trabajo de SQL con JavaScript básico o JavaScript puro. Dataform core es un metalenguaje de código abierto que extiende SQL con SQLX y JavaScript. Puedes usar Datacore para administrar dependencias, configurar pruebas automatizadas de calidad de datos y documentar descripciones de tablas o columnas dentro del código.

Dataform almacena tu código de flujo de trabajo de SQL en repositorios y usa Git para realizar un seguimiento de los cambios de archivos. Los lugares de trabajo de desarrollo en Dataform te permiten trabajar en el contenido del repositorio sin afectar el trabajo de otras personas que trabajan en el mismo repositorio. Puedes conectar repositorios de Dataform a proveedores de Git de terceros, incluidos Azure DevOps Services, Bitbucket, GitHub y GitLab.

Puedes ejecutar o programar flujos de trabajo de SQL con configuraciones de actualización de Dataform y configuraciones de flujo de trabajo. Como alternativa, puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler. Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery en orden de las dependencias de objetos en tu flujo de trabajo de SQL. Después de la ejecución, puedes usar las tablas y vistas definidas para el análisis en BigQuery.

Si deseas obtener más información sobre cómo crear flujos de trabajo de SQL de transformación de datos en Dataform, consulta Descripción general de Dataform y Descripción general de las funciones de Dataform.

¿Qué sigue?