Einführung in die Datentransformation

In diesem Dokument werden die verschiedenen Möglichkeiten beschrieben, wie Sie Daten in Ihren BigQuery-Tabellen transformieren können.

Methoden zur Datentransformation

Daten in BigQuery können so transformiert werden:

  • Verwenden Sie die Datenbearbeitungssprache (DML), um Daten in Ihren BigQuery-Tabellen zu transformieren.
  • Mit Dataform können Sie SQL-Workflows in BigQuery entwickeln, testen, steuern und planen.

Sie können auch den Änderungsverlauf einer BigQuery-Tabelle prüfen, um die Transformationen an einer Tabelle in einem bestimmten Zeitraum zu untersuchen.

Daten mit DML transformieren

Sie können die Datenbearbeitungssprache (DML) zum Transformieren von Daten in Ihren BigQuery-Tabellen verwenden. DML-Anweisungen sind Google SQL-Abfragen, mit denen vorhandene Tabellendaten bearbeitet werden, um Zeilen hinzuzufügen oder zu löschen, Daten in vorhandenen Zeilen zu ändern oder Daten mit Werten aus einer anderen Tabelle zusammenzuführen. DML-Transformationen werden auch in partitionierten Tabellen unterstützt.

Sie können mehrere DML-Anweisungen gleichzeitig ausführen, wobei BigQuery mehrere DML-Anweisungen in die Warteschlange stellt, die Ihre Daten nacheinander transformieren. BigQuery verwaltet basierend auf dem Transformationstyp die Ausführung gleichzeitiger DML-Anweisungen.

Daten mit Dataform transformieren

Mit Dataform können Sie die Datentransformation im ELT-Prozess (Extrahieren, Laden und Transformieren) für die Datenintegration verwalten. Nachdem Sie Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen haben, können Sie sie mit Dataform in eine organisierte, getestete und dokumentierte Suite von Tabellen umwandeln. In DML verwenden Sie zwar einen imperativen Ansatz, indem Sie BigQuery anweisen, wie Ihre Daten transformiert werden sollen, in Dataform schreiben Sie jedoch deklarative Anweisungen, wobei Dataform dann die Transformation bestimmt, die zum Erreichen dieses Status erforderlich ist.

In Dataform können Sie SQL-Workflows für die Datentransformation von Datenquellendeklarationen in Ausgabetabellen, Ansichten oder materialisierte Ansichten entwickeln, testen und versionieren. Sie können SQL-Workflows mit Dataform Core oder reinem JavaScript entwickeln. Dataform Core ist eine Open-Source-Metasprache, die SQL um SQLX und JavaScript erweitert. Mit Dataform Core können Sie Abhängigkeiten verwalten, automatisierte Datenqualitätstests einrichten und Tabellen- oder Spaltenbeschreibungen im Code erstellen.

Dataform speichert den SQL-Workflow-Code in Repositories und verwendet Git, um Dateiänderungen zu verfolgen. Mit Entwicklungsarbeitsbereichen in Dataform können Sie den Inhalt des Repositorys bearbeiten, ohne dass dies Auswirkungen auf die Arbeit anderer Nutzer hat, die im selben Repository arbeiten. Sie können Dataform-Repositories mit Git-Drittanbietern wie Azure DevOps Services, BitBucket, GitHub und GitLab verbinden.

Sie können SQL-Workflows mit Dataform-Releasekonfigurationen und -Workflowkonfigurationen ausführen oder planen. Alternativ können Sie Ausführungen entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen. Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten zur Analyse in BigQuery verwenden.

Weitere Informationen zum Erstellen von SQL-Workflows zur Datentransformation in Dataform finden Sie unter Dataform-Übersicht und Übersicht über Dataform-Features.

Nächste Schritte