数据模型和资源

Vertex ML Metadata 以分层方式组织资源,其中每个资源都属于 MetadataStore。您必须先拥有 MetadataStore,然后才能创建元数据资源。

Vertex ML Metadata 术语

下面介绍用于描述 Vertex ML Metadata 资源和组件的数据模型和术语。

MetadataStore
  • MetadataStore 是元数据资源的顶级容器。MetadataStore 分区域并与特定 Google Cloud 项目关联。通常,组织会为每个项目中的元数据资源使用一个共享 MetadataStore。
元数据资源
  • Vertex ML Metadata 提供了一个图状数据模型来表示从机器学习工作流生成和使用的元数据。涉及的主要概念包括工件、执行、事件和上下文。
工件
  • 工件是机器学习工作流生成和使用的离散实体或数据块。工件的示例包括数据集、模型、输入文件和训练日志。
上下文
  • 上下文用于将工件和执行分组到单个可查询的类型化类别下。上下文可用于表示元数据集。例如,上下文可以是机器学习流水线的运行。
例如,您可以使用上下文来表示元数据集,例如:

  • Vertex AI Pipelines 流水线运行。在这种情况下,上下文表示一次运行,每次执行表示机器学习流水线中的一个步骤。展示工件、执行和上下文如何组合到 Vertex ML Metadata 的图表数据模型中。

  • 从 Jupyter 笔记本运行实验。在此示例中,上下文可以代表笔记本,每个执行作业可以代表该笔记本中的一个单元。

    事件
    • 事件描述了工件和执行之间的关系。每个工件可以由执行生成,并可供其他执行使用。事件将工件和执行链接在一起,以帮助您确定机器学习工作流中工件的来源。
    执行
    • 执行是单个机器学习工作流步骤的记录,通常带有其运行时参数注释。例如,执行可以是数据注入、数据验证、模型训练、模型评估和模型部署。
    MetadataSchema
    • MetadataSchema 描述特定类型的工件、执行或上下文的架构。MetadataSchema 用于在创建元数据资源期间验证相应的键值对。系统仅对资源和 MetadataSchema 之间的匹配字段执行架构验证。类型架构使用 OpenAPI 架构对象来表示,该对象使用 YAML 进行描述。

MetadataSchema 示例

类型架构使用 OpenAPI 架构对象来表示,该对象使用 YAML 进行描述。

以下示例展示了如何以 YAML 格式指定预定义的 Model 系统类型。

title: system.Model
type: object
properties:
  framework:
    type: string
    description: "The framework type, for example 'TensorFlow' or 'Scikit-Learn'."
  framework_version:
    type: string
    description: "The framework version, for example '1.15' or '2.1'"
  payload_format:
    type: string
    description: "The format of the Model payload, for example 'SavedModel' or 'TFLite'"

架构的标题必须采用 <namespace>.<type name> 格式。Vertex ML Metadata 发布并维护系统定义的架构,这些架构将用于表示机器学习工作流中广泛使用的常见类型。这些架构位于命名空间 system 下,可以作为 API 中的 MetadataSchema 资源进行访问。系统会始终对架构进行版本控制。

如需详细了解架构,请参阅系统架构。此外,Vertex ML Metadata 可让您创建用户定义的自定义架构。如需详细了解系统架构,请参阅如何注册您自己的自定义架构

元数据资源与机器学习元数据 (MLMD) 的开源实现密切相关。

后续步骤