Les insights sur les données offrent un moyen automatisé et intuitif d'explorer et de comprendre vos données. Il utilise les grands modèles de langage Gemini pour générer des requêtes basées sur les métadonnées d'une table et vous permet de découvrir des modèles, d'évaluer la qualité des données et d'effectuer des analyses statistiques.
Ce document décrit les principales fonctionnalités des insights sur les données et le processus permettant d'automatiser la génération de requêtes pour une exploration approfondie des données.
À propos des insights sur les données
Les analystes de données sont confrontés au problème du démarrage à froid lors de l'exploration d'un nouvel ensemble de données avec peu ou pas de connaissances préalables. Le problème implique souvent des incertitudes concernant la structure des données, les approches clés et les insights pertinents. En utilisant la génération automatique de requêtes basées sur les métadonnées, les insights sur les données résolvent le problème de démarrage à froid lors de l'exploration de données. Les insights fournissent de précieux indices pour vous aider à prendre des décisions éclairées et à mieux comprendre vos données. Plutôt que de partir de zéro, vous pouvez lancer plus rapidement l'exploration des données à l'aide de requêtes pertinentes qui fournissent de précieux insights.
Les requêtes générées à l'aide d'insights sont ancrées à l'aide des données d'analyse de profil publiées. Les insights sur les données utilisent les données d'analyse de profil publiées pour créer des requêtes qui produisent des résultats, offrant ainsi une récupération d'informations efficace et fiable. Cela accélère considérablement le lancement du processus d'analyse de données et vous permet d'approfondir les données avec une direction et un objectif plus clairs.
Les insights sur les données servent d'outil d'orientation qui résout le problème courant de la navigation dans des ensembles de données inconnus, ce qui vous permet de prendre des décisions éclairées et de découvrir des modèles plus rapidement lors de l'exploration de données.
Exemple d'exécution d'insights
Prenons l'exemple d'une table appelée telco_churn
avec les métadonnées techniques suivantes:
Nom du champ | Type |
---|---|
CustomerID | STRING |
Gender | STRING |
Tenure | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Dependents | BOOLEAN |
Contract | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT customerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifiez les segments de clients à fort potentiel qui enregistrent des taux de perte d'utilisateurs élevés.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT customerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
À propos de l'ancrage des insights à l'aide des analyses de profil
Lorsque vous créez une analyse de profil de données pour une table, vous pouvez choisir de publier les résultats de l'analyse dans BigQuery et Data Catalog. Les insights sur les données utilisent les données d'analyse de profil publiées pour générer des requêtes plus précises et pertinentes sur la table.
Les données d'analyse de profil publiées sont visibles dans la console Google Cloud. Pour en savoir plus sur l'affichage des données d'analyse de profil publiées, consultez Reporting et surveillance.
Si une analyse de profil publiée pour la table est accessible, elle permet de générer des insights complets. Sinon, les insights sont formulés en fonction des noms des colonnes et de leurs descriptions respectives. Cette approche vous permet de recevoir des insights, quelle que soit la disponibilité d'une analyse de profil.
Les données d'analyse de profil fournissent des informations précieuses sur la distribution des données, les types de données et des résumés statistiques de l'ensemble de données. Les requêtes étant ancrées à l'aide des données d'analyse de profil, les insights sur les données garantissent que les requêtes générées sont pertinentes et renvoient des résultats qui facilitent une analyse plus approfondie.
Pour en savoir plus sur les analyses de profil, consultez À propos du profilage des données.
Pour en savoir plus sur la création et la publication d'analyses de profil, consultez la page Créer et utiliser des analyses de profil de données.
Les sections suivantes décrivent comment les insights sur les données utilisent les données d'analyse de profil publiées sur les requêtes au sol.
À propos des données d'analyse de profil
Les données d'analyse de profil sont les métadonnées qui décrivent le contenu d'un ensemble de données. Elles comprennent les informations suivantes :
- Types de données des colonnes
- Valeurs minimale et maximale
- Distribution des valeurs
- Valeurs nulles ou manquantes
- Valeurs principales
- Valeurs uniques et fréquences associées
Les insights sur les données utilisent ces informations pour générer des requêtes adaptées à un ensemble de données spécifique et fournir des insights pertinents.
Comment les insights ancrent les requêtes à l'aide des données d'analyse de profil
Les insights sur les données utilisent les données d'analyse de profil pour créer des requêtes basées sur la distribution et les modèles réels des données de l'ensemble de données. Ce processus comprend les étapes suivantes :
- Analyser les données d'analyse de profil pour identifier des modèles, des tendances ou des anomalies intéressantes dans les données.
- générer des requêtes axées sur ces modèles, tendances ou anomalies afin d'en dégager des insights ;
- Valider les requêtes générées par rapport aux données d'analyse de profil pour vous assurer qu'elles renvoient des résultats pertinents.
Conseils pour tirer le meilleur parti des insights sur les données
Les requêtes basées sur les données vous permettent de vous assurer que les insights que vous obtenez sont précis, pertinents et exploitables, ce qui vous permet de prendre de meilleures décisions basées sur les données. Pour tirer le meilleur parti des requêtes ancrées à l'aide des données d'analyse de profil, suivez ces conseils :
- Assurez-vous que votre table contient des données d'analyse de profil publiées à jour. Cela permet d'obtenir des insights plus précis et plus pertinents grâce aux données.
- Examinez les requêtes générées pour comprendre comment elles sont ancrées sur les données d'analyse de profil. Cela vous permet d'interpréter les résultats et d'obtenir des insights plus détaillés sur vos données.
- Ajustez les paramètres d'analyse du profil de votre table ou fournissez du contexte supplémentaire sur les insights de données si les requêtes générées ne sont pas pertinentes ou utiles.
Tarification
La fonctionnalité d'insights sur les données Dataplex est proposée gratuitement pendant cette phase preview.
Limites
- Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues natives.
- Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
- Les insights sur les données sont disponibles dans toutes les régions Dataplex.
- Les insights sur les données ne sont pas compatibles avec les types de colonnes
Geo
etJSON
. - Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, relancez le pipeline d'insights.
- Pour les tables avec un contrôle des accès au niveau des colonnes (LCA) et des autorisations utilisateur limitées, vous pouvez générer des insights si vous disposez d'un accès en lecture à toutes les colonnes de la table. Pour exécuter les requêtes générées, vous devez disposer des autorisations respectives.
Avant de commencer
Rôles et autorisations requis
Pour créer, gérer et récupérer des insights sur les données, demandez à votre administrateur de vous attribuer les rôles IAM suivants:
Éditeur Dataplex DataScan (
roles/dataplex.dataScanEditor
) ou Administrateur DataScan (roles/dataplex.dataScanAdmin
) pour le projet dans lequel vous souhaitez générer des insightsLecteur de données BigQuery (
roles/bigquery.dataViewer
) sur les tables BigQuery pour lesquelles vous souhaitez générer des insights
Pour obtenir un accès en lecture seule aux insights générés, demandez à votre administrateur de vous attribuer le rôle IAM suivant:
- Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer
) sur le projet contenant les tables BigQuery pour lesquelles vous souhaitez afficher les insights
Pour vous assurer que le compte de service Dataplex dispose des autorisations nécessaires pour lire les analyses de profil de données publiées, demandez à votre administrateur d'attribuer le rôle IAM suivant à l'agent de service Dataplex dans votre projet. Cela permet d'ancrer les requêtes générées à l'aide de valeurs réelles présentes dans la table BigQuery.
- Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer
)
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux comptes de service.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Activer les API
Pour utiliser les insights sur les données, activez les API suivantes dans votre projet :
Pour en savoir plus sur l'activation de l'API Gemini, consultez la page Activer Gemini Code Assist dans un projet Google Cloud.
Générer des insights pour une table BigQuery
Pour générer des insights pour une table BigQuery, vous devez accéder à l'entrée de la table dans Dataplex à l'aide de Dataplex Search.
Dans la console Google Cloud, accédez à la page de recherche de Dataplex.
Recherchez l'entrée de la table dans Dataplex.
Cliquez sur l'onglet Insights. Si l'onglet est vide, cela signifie que les insights de cette table ne sont pas encore générés.
Pour déclencher le pipeline d'insights, cliquez sur Générer des insights.
L'insertion des insights prend 5 à 10 minutes.
Dans l'onglet Insights, explorez les requêtes générées et leur description.
Pour exécuter une requête, cliquez sur Ouvrir dans BigQuery. La requête s'ouvre dans BigQuery.
Pour générer un nouvel ensemble de requêtes, cliquez sur Générer des insights et déclenchez à nouveau le pipeline.
Générer des insights pour une table externe BigQuery
Les insights sur les données Dataplex sont compatibles avec les tables externes BigQuery situées dans le même projet Google Cloud. Si la table BigQuery fait référence à des données stockées dans Cloud Storage dans un autre projet Google Cloud, la génération d'insights échoue.
Pour générer des insights pour une table externe BigQuery, suivez les instructions décrites dans la section Générer des insights pour une table BigQuery de ce document.
Générer des insights pour une table BigLake
Afin de générer des insights pour une table BigLake, procédez comme suit:
Activez l'API Connection BigQuery dans votre projet.
Créer une connexion BigQuery Pour en savoir plus, consultez la page Gérer les connexions.
Attribuez le rôle IAM Lecteur des objets Storage (
roles/storage.objectViewer
) au compte de service correspondant à la connexion BigQuery que vous avez créée.Vous pouvez récupérer l'ID du compte de service sur la page des informations de connexion du compte de service.
Pour générer des insights, suivez les instructions décrites dans la section Générer des insights pour une table BigQuery de ce document.
Étapes suivantes
- En savoir plus sur le profilage de données Dataplex.
- Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.