数据分析提供了一种自动且直观的方式来探索和理解您的数据。它使用 Gemini 大语言模型根据表的元数据生成查询,让您可以发掘模式、评估数据质量以及执行统计分析。
本文档介绍了数据分析的主要功能以及自动生成查询以进行深度数据探索的过程。
数据分析简介
数据分析师在事先几乎没有或完全没有知识的情况下探索新数据集时,会面临数据探索的冷启动问题。该问题通常涉及到数据结构、关键模式和相关数据分析的不确定性。通过使用基于元数据的自动查询生成,数据分析可以解决数据探索中的冷启动问题。数据分析可提供有价值的提示,帮助您做出明智的决策,获得更深入的数据。与其从零开始,不如使用可提供宝贵数据分析的有意义的查询更快地开始数据探索。
使用数据分析生成的查询通过发布的分析扫描数据建立依据。数据分析使用已发布的分析扫描数据来编写可提供结果的查询,从而提供高效、可靠的信息检索。这可显著加快数据分析流程的启动速度,让您能够以更清晰的方向和目的深入研究数据。
数据分析可作为指导工具,解决浏览不熟悉的数据集时面临的常见挑战,帮助您在数据探索期间更快地做出明智的决策并发现模式。
数据分析运行示例
假设有一个名为 telco_churn
的表,其中包含以下技术元数据:
字段名称 | 类型 |
---|---|
CustomerID | STRING |
Gender | STRING |
Tenure | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Dependents | BOOLEAN |
Contract | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
以下是数据分析为此表生成的一些示例查询:
识别已订阅所有高级服务且成为客户超过 50 个月的客户。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
确定哪个互联网服务的流失客户最多。
SELECT InternetService, COUNT(DISTINCT customerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
找出高价值客户中流失率较高的细分客户群。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT customerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
使用分析扫描确定基础数据分析简介
为表创建数据分析扫描时,您可以选择将扫描结果发布到 BigQuery 和 Data Catalog。数据分析会使用这些已发布的分析扫描数据来生成关于表的更准确、相关查询。
您可以在 Google Cloud 控制台中查看已发布的分析扫描数据。如需详细了解如何查看已发布的分析扫描数据,请参阅报告和监控。
如果表的已发布分析扫描可供访问,则可使用它生成全面的数据分析。否则,系统会根据列名称及其各自的说明创建数据分析。此方法可确保无论配置文件扫描是否可用,您都能收到数据分析。
分析扫描数据提供有关数据集的数据分布、数据类型和统计摘要的宝贵信息。由于查询基于分析扫描数据,因此数据分析可确保生成的查询有意义,并返回有助于进一步分析的结果。
如需详细了解分析扫描,请参阅数据分析简介。
如需详细了解如何创建和发布分析扫描,请参阅创建和使用数据分析扫描。
以下部分介绍了数据分析如何使用已发布的配置文件扫描数据来建立查询基础。
分析扫描数据简介
分析扫描数据是描述数据集内容的元数据。它包含以下信息:
- 列的数据类型
- 最小值和最大值
- 值的分布
- Null 或缺失值
- 最高值
- 唯一值及其频率
数据分析使用这些信息生成针对特定数据集量身定制的查询,并提供有意义的数据分析。
数据分析如何使用分析扫描数据作为查询依据
数据分析使用分析扫描数据,基于数据集中的实际数据分布和模式创建查询。此过程包括以下步骤:
- 分析分析扫描数据,以识别数据中值得关注的模式、趋势或离群值。
- 生成重点关注这些模式、趋势或离群值的查询,以发掘数据洞见。
- 根据分析扫描数据验证生成的查询,以确保查询返回有意义的结果。
关于最大限度地发挥数据分析效益的提示
坚实的查询有助于确保您获得准确、相关且可作为行动依据的数据洞见,让您能够根据数据做出更明智的决策。如需使用分析扫描数据充分利用以事实为依据的查询,请遵循以下提示:
- 确保您的表具有最新的已发布分析扫描数据。这有助于获得数据分析结果,生成更准确、更相关的查询。
- 查看生成的查询,了解它们如何使用分析扫描数据建立依据。这样,您就可以解读结果并更深入地了解数据。
- 如果生成的查询不相关或没有用,请调整表的分析扫描设置,或为数据分析提供其他上下文。
价格
在此预览版期间,Dataplex 数据分析功能可免费使用。
限制
- 数据分析适用于原生 BigQuery 表、BigLake 表、外部表和视图。
- 对于多云客户,来自其他云的数据不可用。
- 所有 Dataplex 区域都提供数据分析功能。
- 数据分析不支持
Geo
或JSON
列类型。 - 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请重新启动数据分析流水线。
- 对于具有列级访问权限控制 (ACL) 和受限用户权限的表,如果您拥有表中所有列的读取权限,则可以生成数据分析。如需运行生成的查询,您必须拥有相应的权限。
准备工作
所需的角色和权限
如需创建、管理和检索数据分析,请让管理员授予您以下 IAM 角色:
对要在其中生成数据分析的项目的 Dataplex DataScan Editor (
roles/dataplex.dataScanEditor
) 或 Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin
)BigQuery Data Viewer (
roles/bigquery.dataViewer
),针对要为其生成数据分析的 BigQuery 表
如需获得对生成的数据分析的只读权限,请让管理员授予您以下 IAM 角色:
- 对要查看其数据分析的 BigQuery 表的项目执行 Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
)
为了确保 Dataplex 服务帐号具有读取已发布的数据分析扫描结果所需的权限,请让管理员在项目中向 Dataplex Service Agent 授予以下 IAM 角色。这有助于使用 BigQuery 表中存在的真实值来生成查询。
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
)
如需详细了解如何授予角色,请参阅管理对服务账号的访问权限。
启用 API
如需使用数据分析,请在项目中启用以下 API:
如需详细了解如何启用 Gemini API,请参阅在 Google Cloud 项目中启用 Gemini Code Assist。
为 BigQuery 表生成数据分析
如需为 BigQuery 表生成数据分析,您必须使用 Dataplex 搜索访问 Dataplex 中的表条目。
在 Google Cloud 控制台中,转到 Dataplex 搜索页面。
在 Dataplex 中搜索表条目。
点击数据分析标签页。如果该标签页为空,则表示此表的数据分析尚未生成。
如需触发数据分析流水线,请点击生成数据分析。
数据分析需要 5-10 分钟才能完成填充。
在数据分析标签页中,浏览生成的查询及其说明。
如需执行查询,请点击在 BigQuery 中打开。该查询会在 BigQuery 中打开。
如需生成一组新的查询,请点击生成数据分析并再次触发流水线。
为 BigQuery 外部表生成数据分析
Dataplex 数据分析支持位于同一 Google Cloud 项目中的 BigQuery 外部表。如果 BigQuery 表引用了存储在其他 Google Cloud 项目的 Cloud Storage 中的数据,则数据分析生成失败。
如需为 BigQuery 外部表生成数据分析,请按照本文档的为 BigQuery 表生成数据分析部分中的说明操作。
为 BigLake 表生成数据分析
如需为 BigLake 表生成数据分析,请按以下步骤操作:
在项目中启用 BigQuery Connection API。
创建 BigQuery 连接。如需了解详情,请参阅管理连接。
将 Storage Object Viewer (
roles/storage.objectViewer
) IAM 角色授予与您创建的 BigQuery 连接对应的服务帐号。您可以从服务帐号的连接信息页检索服务帐号 ID。
如需生成数据分析,请按照本文档的为 BigQuery 表生成数据分析部分中的说明操作。
后续步骤
- 详细了解 Dataplex 数据分析。
- 了解如何在 BigQuery 中借助 Gemini 编写查询。