Genera estadísticas de datos en Dataplex

Las estadísticas de datos ofrecen una forma intuitiva y automatizada de explorar y comprender los datos. Usa los modelos grandes de lenguaje de Gemini para generar consultas basadas en los metadatos de una tabla y te permite descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

En este documento, se describen las características clave de las estadísticas de datos y el proceso para automatizar la generación de consultas para la exploración de datos valiosa.

Acerca de las estadísticas de datos

Los analistas de datos enfrentan el problema de inicio en frío en la exploración de datos, cuando exploran un conjunto de datos nuevo con poco o ningún conocimiento previo. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas relevantes. Mediante la generación automática de consultas basadas en metadatos, las estadísticas de datos abordan el problema de inicio en frío en la exploración de datos. Las estadísticas proporcionan pistas valiosas que te ayudan a tomar decisiones fundamentadas y a obtener estadísticas más detalladas de tus datos. En lugar de comenzar con una cortinilla de video en blanco, puedes iniciar más rápido la exploración de datos con consultas significativas que ofrezcan estadísticas valiosas.

Las consultas generadas con estadísticas de datos se basan en los datos de análisis de perfil publicados. Estadísticas de datos usa datos de análisis de perfil publicados para crear consultas que entreguen resultados, lo que proporciona una recuperación de información eficiente y confiable. Esto acelera significativamente el inicio del proceso de análisis de datos y te permite profundizar en los datos con una dirección y un propósito más claros.

Las estadísticas de datos sirven como una herramienta de guía que resuelve el desafío común de navegar por conjuntos de datos desconocidos, lo que te permite tomar decisiones fundamentadas y descubrir patrones con mayor rapidez durante la exploración de datos.

Ejemplo de una ejecución de estadística

Considera una tabla llamada telco_churn con los siguientes metadatos técnicos:

Nombre del campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
PhoneService STRING
OnlineBackup STRING
Dependents BOOLEAN
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

  • Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene los clientes más desertores.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica los segmentos de clientes con tasas de deserción altas entre los clientes valiosos.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Acerca de la fundamentación de estadísticas con análisis de perfiles

Cuando creas un análisis de perfil de datos para una tabla, puedes optar por publicar los resultados del análisis en BigQuery y Data Catalog. Las estadísticas de datos usan estos datos de análisis de perfil publicados para generar consultas más precisas y relevantes sobre la tabla.

Los datos del análisis de perfil publicado se pueden ver en la consola de Google Cloud. Para obtener más información sobre cómo ver los datos de análisis de perfil publicados, consulta Informes y supervisión.

Si se puede acceder a un análisis de perfil publicado de la tabla, se usa para generar estadísticas integrales. De lo contrario, las estadísticas se formularán en función de los nombres de las columnas y sus respectivas descripciones. Este enfoque garantiza que recibas estadísticas sin importar la disponibilidad de un análisis de perfil.

Los datos de análisis de perfil proporcionan información valiosa sobre la distribución de datos, los tipos de datos y los resúmenes estadísticos del conjunto de datos. Debido a que las consultas se basan en los datos de análisis de perfil, las estadísticas de datos garantizan que las consultas generadas sean significativas y muestran resultados que ayudan en un análisis posterior.

Para obtener más información sobre los análisis de perfil, consulta Acerca de la creación de perfiles de datos.

Para obtener más información sobre cómo crear y publicar análisis de perfiles, consulta Cómo crear y usar análisis de perfiles de datos.

En las siguientes secciones, se describe cómo las estadísticas de datos usan los datos de análisis del perfil publicado para fundamentar las consultas.

Acerca de los datos de análisis de perfiles

Los datos de análisis de perfiles son los metadatos que describen el contenido de un conjunto de datos. Incluyen la siguiente información:

  • Tipos de datos de columnas
  • Valores mínimos y máximos
  • Distribución de valores
  • Valores nulos o faltantes
  • Valores principales
  • Valores únicos y sus frecuencias

Las estadísticas de datos usan esta información para generar consultas que se adaptan a un conjunto de datos específico y proporcionar estadísticas significativas.

Cómo las estadísticas de datos fundamentan las consultas con los datos de análisis de perfiles

Las estadísticas de datos usan datos de análisis de perfiles para crear consultas basadas en la distribución de datos y los patrones reales dentro del conjunto de datos. Este proceso implica los siguientes pasos:

  • Analizar los datos de análisis de perfil para identificar patrones, tendencias o valores atípicos interesantes en los datos
  • Generar consultas que se enfoquen en estos patrones, tendencias o valores atípicos para descubrir estadísticas
  • Validar las consultas generadas con los datos de análisis de perfil para garantizar que las consultas muestren resultados significativos.

Sugerencias para maximizar los beneficios de las estadísticas de datos

Las consultas basadas en datos ayudan a garantizar que las estadísticas que obtienes sean precisas, relevantes y prácticas, lo que te permite tomar mejores decisiones basadas en datos. Para aprovechar al máximo las consultas basadas en los datos de análisis de perfil, sigue estas sugerencias:

  • Asegúrate de que tu tabla tenga datos de análisis de perfil publicados y actualizados. Esto ayuda a las estadísticas de datos a generar consultas más precisas y relevantes.
  • Revisa las consultas generadas para comprender cómo se basan en los datos de análisis de perfil. Esto te permite interpretar los resultados y obtener estadísticas más detalladas sobre tus datos.
  • Ajusta la configuración del análisis de perfil de tu tabla o proporciona contexto adicional a las estadísticas de datos si las consultas generadas no son relevantes o útiles.

Precios

La función de estadísticas de datos de Dataplex se ofrece de sin costo durante esta versión preliminar.

Limitaciones

  • Las estadísticas de datos están disponibles para tablas nativas de BigQuery, tablas de BigLake, tablas externas y vistas.
  • Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
  • Las estadísticas de datos están disponibles en todas las regiones de Dataplex.
  • Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, reinicia la canalización de estadísticas.
  • Para las tablas con control de acceso (LCA) a nivel de columna y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener los permisos respectivos.

Antes de comenzar

Roles y permisos requeridos

Para crear, administrar y recuperar estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener acceso de solo lectura a las estadísticas generadas, pídele a tu administrador que te otorgue el siguiente rol de IAM:

  • Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) en el proyecto que contiene las tablas de BigQuery para las que deseas ver estadísticas

Para asegurarte de que la cuenta de servicio de Dataplex tenga los permisos necesarios para leer los análisis de perfiles de datos publicados, pídele a tu administrador que otorgue al agente de servicio de Dataplex en tu proyecto el siguiente rol de IAM. Esto ayuda a fundamentar las consultas generadas con valores reales presentes en la tabla de BigQuery.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a las cuentas de servicio.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:

Para obtener más información para habilitar la API de Gemini, consulta Activa Gemini Code Assist en un proyecto de Google Cloud.

Genera estadísticas para una tabla de BigQuery

Si quieres generar estadísticas para una tabla de BigQuery, debes acceder a la entrada de la tabla en Dataplex mediante la búsqueda de Dataplex.

  1. En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.

    Ir a Búsqueda de Dataplex

  2. Busca la entrada de la tabla en Dataplex.

  3. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.

  4. Para activar la canalización de estadísticas, haz clic en Generar estadísticas.

    Las estadísticas tardan entre 5 y 10 minutos en propagarse.

  5. En la pestaña Estadísticas, explora las búsquedas generadas y sus descripciones.

  6. Para ejecutar una consulta, haz clic en Abrir en BigQuery. La consulta se abrirá en BigQuery.

  7. Para generar un nuevo conjunto de consultas, haz clic en Generar estadísticas y vuelve a activar la canalización.

Genera estadísticas para una tabla externa de BigQuery

Las estadísticas de datos de Dataplex admiten tablas externas de BigQuery que se encuentran en el mismo proyecto de Google Cloud. Si la tabla de BigQuery hace referencia a datos almacenados en Cloud Storage en otro proyecto de Google Cloud, la generación de estadísticas falla.

A fin de generar estadísticas para una tabla externa de BigQuery, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

Genera estadísticas para una tabla de BigLake

Si deseas generar estadísticas para una tabla de BigLake, sigue estos pasos:

  1. Habilita la API de conexión de BigQuery en tu proyecto.

    Habilita la API de conexión de BigQuery

  2. Crea una conexión de BigQuery. Para obtener más información, consulta Administra conexiones.

  3. Otorga el rol de IAM de visualizador de objetos de almacenamiento (roles/storage.objectViewer) a la cuenta de servicio correspondiente a la conexión de BigQuery que creaste.

    Puedes recuperar el ID de la cuenta de servicio desde la página de información de conexión de la cuenta de servicio.

  4. Para generar estadísticas, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

¿Qué sigue?