Trabaja con Data Catalog

Data Catalog es una función de Dataplex que se integra en BigQuery y cataloga automáticamente los metadatos de los recursos de BigQuery, como tablas, conjuntos de datos, vistas y modelos. En este documento, se describe cómo buscar estos recursos, ver el linaje de datos y agregar etiquetas mediante Data Catalog.

Busca recursos de BigQuery

Para usar Data Catalog a fin de buscar tablas, conjuntos de datos y proyectos destacados de BigQuery, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.

    Ir a Búsqueda

  2. En el campo Buscar, ingresa una consulta y, luego, haz clic en Buscar.

    La búsqueda de Data Catalog te permite encontrar datos en tus proyectos y organizaciones.

    Para definir mejor los parámetros de búsqueda, usa el panel Filtros. Por ejemplo, en la sección Sistemas, selecciona la casilla de verificación BigQuery. Los resultados se filtran a los sistemas de BigQuery.

Puedes realizar búsquedas básicas en Data Catalog a través de la consola de Google Cloud. Para obtener más información sobre cómo hacer búsquedas en la consola de Google Cloud, consulta Abre un conjunto de datos públicos.

Linaje de datos

El linaje de datos es una función de Dataplex que te permite hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos. Puedes acceder a la función de linaje de datos directamente desde BigQuery.

Si habilitas el linaje de datos en tu proyecto de BigQuery, Dataplex puede registrar automáticamente la información del linaje para las tablas creadas mediante las siguientes operaciones:

Antes de comenzar

En esta sección, habilitarás la API de Data Lineage y otorgarás roles de Identity and Access Management (IAM) que les otorgan a los usuarios los permisos necesarios para realizar cada tarea de este documento.

Habilita el linaje de datos

  1. En la página del selector de proyectos de la consola de Google Cloud, selecciona el proyecto que contiene los recursos para los que deseas realizar un seguimiento del linaje.

    Ir al selector de proyectos

  2. Habilita las APIs de Data Lineage y Data Catalog.

    Habilitar las APIs

Roles de IAM obligatorios

La información de linaje se sigue de automáticamente cuando habilitas la API de Data Lineage.

Para obtener los permisos que necesitas para ver los gráficos de visualización de linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Si quieres obtener más información para otorgar roles, consulta Administra el acceso.

También puedes obtener los permisos necesarios a través de funciones personalizadas o cualquier otro rol predefinido.

Para obtener más información, consulta las funciones de linaje de datos.

Visualiza gráficos de linaje en BigQuery

Para ver el gráfico de visualización del linaje de datos de BigQuery, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, expande el proyecto y conjunto de datos y, luego, selecciona una tabla.

  3. Haz clic en la pestaña Linaje.

    Pestaña de linaje de datos.

    Se muestra tu gráfico de visualización de linaje de datos.

    Gráfico de linaje de datos.

  4. Opcional: Selecciona un nodo para ver detalles adicionales sobre las entidades o los procesos involucrados en la construcción de la información del linaje.

Para obtener más información sobre el linaje de datos, consulta Acerca del linaje de datos.

Etiquetas y plantillas de etiquetas

Las etiquetas permiten que las organizaciones creen, busquen y administren metadatos para todas sus entradas de datos en un servicio unificado.

En esta sección, se explican estos dos conceptos clave de Data Catalog:

  • Las etiquetas te permiten proporcionar contexto para una entrada de datos adjuntando campos de metadatos personalizados.

  • Las plantillas de etiquetas son estructuras reutilizables que puedes usar para crear etiquetas nuevas con rapidez.

Etiquetas

Data Catalog proporciona dos tipos de etiquetas: etiquetas privadas y públicas.

Etiquetas privadas

Las etiquetas privadas proporcionan controles de acceso estrictos. Puedes buscar o ver las etiquetas y las entradas de datos asociadas con las etiquetas solo si se les otorgan los permisos de lectura necesarios en la plantilla de etiquetas y las entradas de datos.

Para buscar etiquetas privadas en la página Data Catalog, se requiere que uses la sintaxis de búsqueda tag: o los filtros de búsqueda.

Las etiquetas privadas son adecuadas para situaciones en las que necesitas almacenar información sensible en la etiqueta y deseas aplicar restricciones de acceso adicionales más allá de verificar si el usuario tiene permisos para ver la entrada etiquetada.

Etiquetas públicas

Las etiquetas públicas proporcionan un control de acceso menos estricto para buscar y ver la etiqueta en comparación con las etiquetas privadas. Cualquier usuario que tenga los permisos de lectura necesarios para una entrada de datos puede ver todas las etiquetas públicas asociadas a ella. Los permisos de lectura para las etiquetas públicas solo son necesarios cuando realizas una búsqueda en Data Catalog con la sintaxis tag: o cuando ves una plantilla de etiqueta no adjunta.

Las etiquetas públicas admiten la búsqueda simple y la búsqueda con predicados en la página de búsqueda de Data Catalog. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud.

Por ejemplo, supongamos que tienes una plantilla de etiqueta pública llamada employee data que usaste para crear etiquetas para tres entradas de datos llamadas Name, Location y Salary. De las tres entradas de datos, solo los miembros de un grupo específico llamado HR pueden ver la entrada de datos Salary. Las otras dos entradas de datos tienen permisos de lectura para todos los empleados de la empresa.

Si algún empleado que no es miembro del grupo de HR usa la página de búsqueda de Data Catalog y busca con la palabra employee, el resultado de la búsqueda solo muestra las entradas de datos Name y Location con las etiquetas públicas asociadas.

Las etiquetas públicas son útiles para una amplia variedad de situaciones. Las etiquetas públicas admiten la búsqueda simple y la búsqueda con predicados, mientras que las etiquetas privadas solo admiten la búsqueda con predicados.

Plantillas de etiquetas

Para comenzar a etiquetar metadatos, primero debes crear una o más plantillas de etiquetas. Una plantilla de etiqueta puede ser pública o privada. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud. Una plantilla de etiqueta es un grupo de pares clave-valor de metadatos llamados campos. Tener un conjunto de plantillas es similar a tener un esquema de base de datos para los metadatos.

Puedes estructurar las etiquetas por tema. Por ejemplo:

  • Una etiqueta de data governance con campos para: administrador de datos, fecha de retención, fecha de eliminación, PII (sí o no), clasificación de datos (públicos, confidenciales, sensibles, reglamentarios)
  • Una etiqueta de data quality con campos para los problemas de calidad, la frecuencia de actualización y la información de SLO
  • Una etiqueta de data usage con campos para usuarios principales, búsquedas principales y usuarios diarios promedio

Luego, puedes mezclar y combinar etiquetas a través de las etiquetas relevantes para cada recurso de datos y tus necesidades comerciales.

Para ayudarte a comenzar, Data Catalog incluye una galería de plantillas de etiquetas de muestra para ilustrar los casos de uso comunes del etiquetado. Recurre a estos ejemplos para descubrir lo que puedes hacer con el etiquetado, obtener inspiración o utilizarlos como punto de partida para crear tu propia infraestructura de etiquetado.

Para usar una plantilla de etiqueta, realiza los siguientes pasos:

  1. En la consola de Google Cloud, ve a la página Plantillas de etiquetas de Dataplex.

    Ir a Plantillas de etiquetas

  2. Haz clic en Crear plantilla de etiqueta.

    La galería de plantillas se muestra como parte de la página Crear plantilla.

Después de seleccionar una plantilla de la galería, puedes usarla como cualquier otra plantilla de etiqueta. Puedes agregar o borrar atributos, y cambiar cualquier elemento de la plantilla para satisfacer tus necesidades empresariales. Luego, puedes buscar los campos y valores de plantilla con Data Catalog.

Para obtener más información sobre las etiquetas y las plantillas de etiquetas, consulta Etiquetas y plantillas de etiquetas.

Recursos regionales

Cada etiqueta y plantilla de etiqueta se almacena en una región de Google Cloud en particular. Puedes usar una plantilla de etiqueta para crear una etiqueta en cualquier región, por lo que no necesitas crear copias de tu plantilla si tienes entradas de metadatos distribuidos en varias regiones.