Pengantar transformasi data

Dokumen ini menjelaskan berbagai cara untuk mengubah data dalam tabel BigQuery Anda.

Metode untuk mentransformasi data

Anda dapat mengubah data di BigQuery dengan cara berikut:

  • Gunakan bahasa manipulasi data (DML) untuk mengubah data dalam tabel BigQuery Anda.
  • Gunakan Dataform untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan alur kerja SQL di BigQuery.

Anda juga dapat meninjau histori perubahan tabel BigQuery untuk memeriksa transformasi yang dilakukan pada tabel dalam rentang waktu yang ditentukan.

Mentransformasi data dengan DML

Anda dapat menggunakan bahasa manipulasi data (DML) untuk mengubah data di tabel BigQuery Anda. Pernyataan DML adalah kueri GoogleSQL yang memanipulasi data tabel yang ada untuk menambahkan atau menghapus baris, mengubah data dalam baris yang ada, atau menggabungkan data dengan nilai dari tabel lain. Transformasi DML juga didukung dalam tabel yang dipartisi.

Anda dapat menjalankan beberapa pernyataan DML secara serentak, ketika BigQuery mengantrekan beberapa pernyataan DML yang mengubah data Anda satu per satu. BigQuery mengelola cara menjalankan pernyataan DML serentak, berdasarkan jenis transformasi.

Mentransformasi data dengan Dataform

Dengan Dataform, Anda dapat mengelola transformasi data dalam proses ekstrak, pemuatan, dan transformasi (ELT) untuk integrasi data. Setelah mengekstrak data mentah dari sistem sumber dan memuatnya ke BigQuery, Anda dapat menggunakan Dataform untuk mengubahnya menjadi rangkaian tabel yang terorganisir, diuji, dan didokumentasikan. Saat dalam DML, Anda melakukan pendekatan imperatif dengan memberi tahu BigQuery cara mengubah data secara tepat, dalam Dataform, Anda menulis pernyataan deklaratif, di mana Dataform kemudian menentukan transformasi yang diperlukan untuk mencapai status tersebut.

Dalam Dataform, Anda dapat mengembangkan, menguji, dan mengontrol versi alur kerja SQL untuk transformasi data dari deklarasi sumber data ke tabel output, tampilan, atau tampilan terwujud. Anda dapat mengembangkan alur kerja SQL dengan Dataform core atau JavaScript murni. Dataform core adalah bahasa meta open source yang memperluas SQL dengan SQLX dan JavaScript. Anda dapat menggunakan Dataform core untuk mengelola dependensi, menyiapkan pengujian kualitas data otomatis, dan deskripsi tabel atau kolom dokumen dalam kode.

Dataform menyimpan kode alur kerja SQL Anda di repositori dan menggunakan Git untuk melacak perubahan file. Ruang kerja pengembangan di Dataform memungkinkan Anda mengerjakan konten repositori tanpa memengaruhi pekerjaan orang lain yang bekerja di repositori yang sama. Anda dapat menghubungkan repositori Dataform ke penyedia Git pihak ketiga, termasuk Azure DevOps Services, BitBucket, GitHub, dan GitLab.

Anda dapat menjalankan atau menjadwalkan alur kerja SQL dengan konfigurasi rilis Dataform dan konfigurasi alur kerja. Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler. Selama eksekusi, Dataform mengeksekusi kueri SQL di BigQuery sesuai urutan dependensi objek dalam alur kerja SQL Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk analisis di BigQuery.

Untuk mempelajari lebih lanjut cara membuat alur kerja SQL transformasi data di Dataform, lihat Ringkasan dataform dan Ringkasan fitur Dataform.

Langkah selanjutnya