Datenstatistiken in Dataplex generieren

Mit Dateneinblicken können Sie Ihre Daten auf automatisierte und intuitive Weise untersuchen und verstehen. Es verwendet Gemini Large Language Models, um Abfragen anhand der Metadaten einer Tabelle zu generieren. Damit können Sie Muster aufdecken, die Datenqualität bewerten und statistische Analysen durchführen.

In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.

Informationen zu Data Insights

Fachkräfte für Datenanalyse stehen bei der Datenerkundung vor dem Kaltstartproblem, wenn sie ein neues Dataset mit wenig oder gar keinen Vorkenntnissen untersuchen. Das Problem beinhaltet oft Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Erkenntnisse. Durch die Verwendung der automatischen Abfragegenerierung basierend auf Metadaten lösen Data Insights das Kaltstartproblem bei der Datenexploration. Die Informationen liefern wertvolle Hinweise, damit Sie fundierte Entscheidungen treffen und tiefere Einblicke in Ihre Daten gewinnen können. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten.

Abfragen, die mit Data Insights generiert wurden, basieren auf veröffentlichten Profilscandaten. Data Insights verwenden veröffentlichte Profilscandaten, um Abfragen zu erstellen, die Ergebnisse liefern und einen effizienten und zuverlässigen Informationsabruf ermöglichen. Dies beschleunigt die Initiierung des Datenanalyseprozesses erheblich und ermöglicht es Ihnen, die Daten mit einer klareren Richtung und mit einer klareren Richtung in die Daten einzutauchen.

Data Insights dienen als Orientierungshilfe, die häufige Herausforderungen beim Suchen in unbekannten Datasets löst. So können Sie fundierte Entscheidungen treffen und Muster während der Datenexploration schneller erkennen.

Beispiel für eine Statistikausführung

Betrachten Sie eine Tabelle mit dem Namen telco_churn mit den folgenden technischen Metadaten:

Feldname Typ
CustomerID STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
PhoneService STRING
OnlineBackup STRING
Abhängige BOOLEAN
Vertrag STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Abwandern BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Kundensegmente mit hohen Abwanderungsraten bei Kunden mit hohem Umsatzpotenzial identifizieren.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Fundierungsinformationen über Profilscans erhalten

Wenn Sie einen Datenprofilscan für eine Tabelle erstellen, können Sie die Scanergebnisse in BigQuery und Data Catalog veröffentlichen. Für Datenstatistiken werden diese veröffentlichten Profilscandaten verwendet, um genauere und relevantere Abfragen zur Tabelle zu generieren.

Die Daten des veröffentlichten Profilscans können in der Google Cloud Console eingesehen werden. Weitere Informationen zum Aufrufen von Daten von veröffentlichten Profilscans finden Sie unter Berichterstellung und Monitoring.

Wenn ein veröffentlichter Profilscan für die Tabelle zugänglich ist, wird er verwendet, um umfassende Statistiken zu generieren. Andernfalls werden Erkenntnisse basierend auf den Spaltennamen und den entsprechenden Beschreibungen formuliert. Auf diese Weise erhalten Sie unabhängig von der Verfügbarkeit eines Profilscans Informationen.

Daten des Profilscans liefern wertvolle Informationen über die Datenverteilung, Datentypen und statistische Zusammenfassungen des Datasets. Da Abfragen auf Profilscandaten basieren, sorgen Datenstatistiken dafür, dass die generierten Abfragen aussagekräftig sind, und geben Ergebnisse zurück, die bei der weiteren Analyse hilfreich sind.

Weitere Informationen zu Profilscans finden Sie unter Datenprofilerstellung.

Weitere Informationen zum Erstellen und Veröffentlichen von Profilscans finden Sie unter Datenprofilscans erstellen und verwenden.

In den folgenden Abschnitten wird beschrieben, wie in Data Insights die Scandaten des veröffentlichten Profils verwendet werden, um Abfragen zu stützen.

Informationen zu Profilscandaten

Profilscandaten sind die Metadaten, die den Inhalt eines Datasets beschreiben. Sie enthalten die folgenden Informationen:

  • Datentypen von Spalten
  • Mindest- und Höchstwerte
  • Verteilung von Werten
  • Nullwerte oder fehlende Werte
  • Top-Werte
  • Eindeutige Werte und deren Häufigkeit

Datenstatistiken verwenden diese Informationen, um Abfragen zu generieren, die auf einen bestimmten Datensatz zugeschnitten sind, und aussagekräftige Informationen zu liefern.

Wie Data Insights Abfragen mithilfe von Profilscandaten fundieren

Data Insights verwenden Profilscandaten, um Abfragen zu erstellen, die auf der tatsächlichen Datenverteilung und den Mustern im Dataset basieren. Dieser Vorgang umfasst folgende Schritte:

  • Analyse der Profilscandaten, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren.
  • Abfragen generieren, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Erkenntnisse zu gewinnen
  • Validieren der generierten Abfragen anhand der Profilscandaten, damit die Abfragen aussagekräftige Ergebnisse zurückgeben

Tipps zur Maximierung der Vorteile von Data Insights

Fundierte Abfragen tragen dazu bei, dass die gewonnenen Informationen korrekt, relevant und umsetzbar sind, sodass Sie bessere datengestützte Entscheidungen treffen können. Beachten Sie die folgenden Tipps, um fundierte Abfragen mit Profilscandaten optimal zu nutzen:

  • Achten Sie darauf, dass die Tabelle aktuelle Daten des veröffentlichten Profilscans enthält. So lassen sich präzisere und relevantere Abfragen generieren.
  • Sehen Sie sich die generierten Abfragen an, um zu verstehen, warum sie auf den Profilscandaten basieren. So können Sie die Ergebnisse interpretieren und tiefere Einblicke in Ihre Daten gewinnen.
  • Passen Sie die Einstellungen des Profilscans Ihrer Tabelle an oder stellen Sie zusätzlichen Kontext zu Data Insights bereit, wenn die generierten Abfragen nicht relevant oder nützlich sind.

Preise

Das Dataplex Data Insights-Feature wird während dieser Vorabversion kostenlos zur Verfügung gestellt.

Beschränkungen

  • Datenstatistiken sind für native BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
  • Für Multi-Cloud-Kunden sind Daten aus anderen Clouds nicht verfügbar.
  • Datenstatistiken sind in allen Dataplex-Regionen verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
  • Für Tabellen mit Zugriffssteuerung auf Spaltenebene (ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie die entsprechenden Berechtigungen.

Hinweise

Erforderliche Rollen und Berechtigungen

Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren:

Wenn Sie nur Lesezugriff auf die generierten Statistiken erhalten möchten, bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zu gewähren:

  • Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) für das Projekt, das die BigQuery-Tabellen enthält, für die Sie Statistiken ansehen möchten

Bitten Sie Ihren Administrator, dem Dataplex-Dienst-Agent in Ihrem Projekt die folgende IAM-Rolle zu gewähren, damit das Dataplex-Dienstkonto die erforderlichen Berechtigungen zum Lesen der veröffentlichten Datenprofilscans hat. Dies hilft, die generierten Abfragen anhand der in der BigQuery-Tabelle vorhandenen Werte zu stützen.

Weitere Informationen zum Gewähren von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

Weitere Informationen zum Aktivieren der Gemini API finden Sie unter Gemini-Codeassistent in einem Google Cloud-Projekt aktivieren.

Statistiken für eine BigQuery-Tabelle generieren

Wenn Sie Statistiken für eine BigQuery-Tabelle generieren möchten, müssen Sie mit Dataplex Search auf den Tabelleneintrag in Dataplex zugreifen.

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Suche auf.

    Dataplex Search aufrufen

  2. Suchen Sie in Dataplex nach dem Tabelleneintrag.

  3. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden noch keine Statistiken für diese Tabelle generiert.

  4. Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.

    Dieser Prozess dauert 5 bis 10 Minuten.

  5. Sehen Sie sich auf dem Tab Statistiken die generierten Abfragen und die zugehörigen Beschreibungen an.

  6. Klicken Sie zum Ausführen einer Abfrage auf In BigQuery öffnen. Die Abfrage wird in BigQuery geöffnet.

  7. Klicken Sie auf Generate Insights (Statistiken generieren) und lösen Sie die Pipeline noch einmal aus, um einen neuen Satz von Abfragen zu generieren.

Statistiken für eine externe BigQuery-Tabelle generieren

Dataplex-Datenstatistiken unterstützen externe BigQuery-Tabellen, die sich im selben Google Cloud-Projekt befinden. Wenn die BigQuery-Tabelle auf Daten verweist, die in Cloud Storage in einem anderen Google Cloud-Projekt gespeichert sind, schlägt die Generierung von Statistiken fehl.

Um Statistiken für eine externe BigQuery-Tabelle zu generieren, folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Statistiken für eine BigLake-Tabelle:

  1. Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

    BigQuery Connection API aktivieren

  2. BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.

  3. Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Viewer“ (roles/storage.objectViewer) zu.

    Sie können die Dienstkonto-ID auf der Seite mit den Verbindungsinformationen für das Dienstkonto abrufen.

  4. Um Statistiken zu generieren, folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Nächste Schritte