Menghasilkan insight data di Dataplex

Insight data menawarkan cara otomatis dan intuitif untuk menjelajahi dan memahami data Anda. Gemini menggunakan model bahasa besar Gemini untuk membuat kueri berdasarkan metadata tabel, sehingga Anda dapat menemukan pola, menilai kualitas data, dan melakukan analisis statistik.

Dokumen ini menjelaskan fitur utama dari insight data dan proses untuk mengotomatiskan pembuatan kueri guna eksplorasi data yang mendalam.

Tentang insight data

Analis data menghadapi masalah cold start dalam eksplorasi data, ketika mereka mengeksplorasi set data baru dengan sedikit atau tanpa pengetahuan sebelumnya. Masalahnya sering kali melibatkan ketidakpastian tentang struktur data, pola utama, dan insight yang relevan. Dengan menggunakan pembuatan kueri otomatis berdasarkan metadata, insight data akan mengatasi masalah cold start dalam eksplorasi data. Insight memberikan tanda berharga untuk membantu Anda membuat keputusan yang tepat dan mendapatkan insight yang lebih dalam tentang data. Daripada memulai dari nol, Anda dapat memulai eksplorasi data dengan lebih cepat menggunakan kueri bermakna yang menawarkan insight berharga.

Kueri yang dihasilkan menggunakan insight data didasarkan menggunakan data pemindaian profil yang dipublikasikan. Insight data menggunakan data pemindaian profil yang dipublikasikan untuk membuat kueri yang memberikan hasil, sehingga memungkinkan pengambilan informasi yang efisien dan andal. Hal ini akan mempercepat inisiasi proses analisis data secara signifikan, dan memungkinkan Anda mempelajari data dengan arah dan tujuan yang lebih jelas.

Insight data berfungsi sebagai alat panduan yang menyelesaikan tantangan umum dalam menavigasi set data yang tidak dikenal, sehingga mendukung Anda untuk mengambil keputusan yang tepat dan menemukan pola dengan lebih cepat selama eksplorasi data.

Contoh proses insight

Pertimbangkan tabel bernama telco_churn dengan metadata teknis berikut:

Nama kolom Jenis
CustomerID STRING
Gender STRING
Masa bakti INT64
PhoneService STRING
OnlineBackup STRING
Ketergantungan BOOLEAN
Kontrak STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Keluar - Masuk Pelanggan (Churn) BOOLEAN

Berikut adalah beberapa contoh kueri yang dihasilkan insight data untuk tabel ini:

  • Mengidentifikasi pelanggan yang telah berlangganan ke semua layanan premium dan telah menjadi pelanggan selama lebih dari 50 bulan.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Mengidentifikasi layanan internet yang memiliki pelanggan yang paling banyak melakukan churn.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Mengidentifikasi segmen pelanggan dengan rasio churn tinggi di antara pelanggan yang bernilai tinggi.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Tentang insight grounding menggunakan pemindaian profil

Insight data menggunakan data pemindaian profil yang dipublikasikan untuk menghasilkan kueri yang lebih akurat dan relevan. Data pemindaian profil memberikan informasi berharga tentang distribusi data, jenis data, dan ringkasan statistik set data. Karena kueri didasarkan pada data pemindaian profil, insight data memastikan bahwa kueri yang dihasilkan bermakna, dan menampilkan hasil yang membantu dalam analisis lebih lanjut.

Bagian ini menjelaskan cara insight data menggunakan data pemindaian profil yang dipublikasikan untuk mengdasarkan kueri, dan memberikan tips untuk sepenuhnya menggunakan potensi fitur ini.

Tentang data pemindaian profil

Data pemindaian profil adalah metadata yang mendeskripsikan konten set data. Ringkasan ini mencakup informasi berikut:

  • Jenis data kolom
  • Nilai minimum dan maksimum
  • Distribusi nilai
  • Nilai {i>null<i} atau tidak ada
  • Nilai teratas
  • Nilai unik dan frekuensinya

Insight data menggunakan informasi ini untuk menghasilkan kueri yang disesuaikan dengan set data tertentu dan memberikan insight yang bermakna.

Cara insight data menentukan kueri menggunakan data pemindaian profil

Insight data menggunakan data pemindaian profil untuk membuat kueri yang didasarkan pada distribusi dan pola data sebenarnya dalam set data. Proses ini melibatkan langkah-langkah berikut:

  • Menganalisis data pemindaian profil untuk mengidentifikasi pola, tren, atau pencilan yang menarik dalam data.
  • Menghasilkan kueri yang berfokus pada pola, tren, atau outlier ini untuk menemukan insight.
  • Memvalidasi kueri yang dihasilkan terhadap data pemindaian profil untuk memastikan bahwa kueri menampilkan hasil yang bermakna.

Kiat untuk memaksimalkan manfaat wawasan data

Kueri dasar membantu memastikan insight yang Anda peroleh akurat, relevan, dan dapat ditindaklanjuti, sehingga Anda dapat membuat keputusan berbasis data yang lebih baik. Untuk memaksimalkan kueri ground menggunakan data pemindaian profil, ikuti tips berikut:

  • Pastikan tabel Anda memiliki data pemindaian profil yang terbaru dan dipublikasikan. Hal ini membantu insight data menghasilkan kueri yang lebih akurat dan relevan.
  • Tinjau kueri yang dihasilkan untuk memahami cara kueri tersebut didasarkan pada data pemindaian profil. Hal ini memungkinkan Anda menafsirkan hasil dan mendapatkan wawasan yang lebih dalam tentang data.
  • Sesuaikan setelan pemindaian profil pada tabel Anda atau berikan konteks tambahan pada insight data jika kueri yang dihasilkan tidak relevan atau berguna.

Harga

Fitur insight data Dataplex ditawarkan tanpa biaya selama Pratinjau ini.

Batasan

  • Analisis data tersedia untuk tabel BigQuery native, tabel BigLake, tabel eksternal, dan tampilan.
  • Untuk pelanggan multicloud, data dari cloud lain tidak tersedia.
  • Insight data tersedia di semua region Dataplex.
  • Analisis data tidak mendukung jenis kolom Geo atau JSON.
  • Insight yang berjalan tidak menjamin presentasi kueri setiap saat. Untuk meningkatkan kemungkinan dihasilkannya kueri yang lebih menarik, mulai ulang pipeline insight.
  • Untuk tabel dengan kontrol akses tingkat kolom (ACL) dan izin pengguna yang dibatasi, Anda dapat membuat insight jika memiliki akses baca ke semua kolom tabel. Untuk menjalankan kueri yang dihasilkan, Anda harus memiliki izin masing-masing.

Sebelum memulai

Peran dan izin yang diperlukan

Untuk mendapatkan izin yang diperlukan dalam menggunakan insight data, minta administrator untuk memberi Anda peran IAM berikut pada project:

  • Jalankan pipeline insight:

    • Peran IAM Cloud AI Companion User (roles/cloudaicompanion.user) di akun layanan untuk project tempat Anda memicu pemindaian insight.

      Alamat email akun layanan memiliki format berikut:

      service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com.

    • Izin dataplex.datascans.create pada project

    • Izin bigquery.tables.getData di tabel BigQuery

    • Akses baca ke semua kolom tabel

  • Lihat insight yang dihasilkan:

    • dataplex.datascans.getData pada pemindaian data yang dihasilkan
  • Kueri dasar menggunakan pemindaian profil:

    • Peran IAM Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) di akun layanan (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)

    • Izin dataplex.datascans.getData pada pemindaian profil data yang dipublikasikan

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke akun layanan.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran standar lainnya.

Mengaktifkan API

Untuk menggunakan insight data, aktifkan API berikut dalam project Anda:

Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini API, lihat Mengaktifkan Gemini Code Assist di project Google Cloud.

Menghasilkan insight untuk tabel BigQuery

Agar dapat menghasilkan insight untuk tabel BigQuery, Anda harus mengakses entri tabel di Dataplex menggunakan Penelusuran Dataplex.

  1. Di konsol Google Cloud, buka halaman Penelusuran Dataplex.

    Buka Dataplex Search

  2. Telusuri entri tabel di Dataplex.

  3. Klik tab Insight. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.

  4. Untuk memicu pipeline insight, klik Buat insight.

    Perlu waktu 5-10 menit untuk melengkapi insight.

    Jika pemindaian profil yang dipublikasikan untuk tabel dapat diakses, pemindaian tersebut akan digunakan untuk menghasilkan insight yang komprehensif. Jika tidak, insight akan dirumuskan berdasarkan nama kolom dan deskripsinya masing-masing. Pendekatan ini memastikan bahwa Anda menerima insight, terlepas dari ketersediaan pemindaian profil.

  5. Di tab Insight, jelajahi kueri yang dihasilkan beserta deskripsinya.

  6. Untuk menjalankan kueri, klik Buka di BigQuery. Kueri akan terbuka di BigQuery.

  7. Untuk membuat kumpulan kueri baru, klik Buat insight dan picu pipeline lagi.

Menghasilkan insight untuk tabel eksternal BigQuery

Insight data Dataplex mendukung tabel eksternal BigQuery yang terletak di project Google Cloud yang sama. Jika tabel BigQuery mereferensikan data yang disimpan di Cloud Storage di project Google Cloud lain, pembuatan insight akan gagal.

Guna menghasilkan insight untuk tabel eksternal BigQuery, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.

Menghasilkan insight untuk tabel BigLake

Guna menghasilkan insight untuk tabel BigLake, ikuti langkah-langkah berikut:

  1. Aktifkan BigQuery Connection API di project Anda.

    Mengaktifkan BigQuery Connection API

  2. Membuat koneksi BigQuery. Untuk mengetahui informasi lebih lanjut, lihat Mengelola koneksi.

  3. Berikan peran IAM Storage Object Viewer (roles/storage.objectViewer) ke akun layanan yang sesuai dengan koneksi BigQuery yang Anda buat.

    Anda dapat mengambil ID akun layanan dari halaman informasi koneksi untuk akun layanan.

  4. Untuk menghasilkan insight, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.

Langkah selanjutnya