部署生成式 AI 模型

一些生成式 AI 模型(例如 Gemini)具有托管式 API,已准备好接受提示而无需部署。如需查看具有托管式 API 的模型列表,请参阅基础模型 API

其他生成式 AI 模型必须先部署到端点,然后才能准备好接受提示。必须部署两种类型的生成模型:

将模型部署到端点时,Vertex AI 会将计算资源和 URI 与模型相关联,以便它可以处理提示请求。

部署调优后的模型

调优后的模型会自动上传到 Vertex AI Model Registry 并部署到 Vertex AI endpoint。调优后的模型不会出现在 Model Garden 中,因为它们使用您的数据进行调优。如需了解详情,请参阅模型调优概览

端点处于活跃状态后,便已准备好通过其 URI 接受提示请求。用于调优后的模型的 API 调用格式与用于进行调优的基础模型相同。例如,如果您的模型在 Gemini 上进行调整,则您的提示请求应遵循 Gemini API

确保将提示请求发送到调优后的模型的端点,而不是托管式 API。调优后的模型的端点采用以下格式:

http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

如需获取端点 ID,请参阅查看或管理端点

如需详细了解如何设置提示请求的格式,请参阅 Model API 参考文档

部署没有托管式 API 的生成模型

如需从 Model Garden 使用没有托管式 API 的模型,您必须先将模型上传到 Model Registry 并将其部署到端点,然后才能发送提示请求。这类似于在 Vertex AI 中上传和部署自定义训练模型以进行在线预测

如需部署其中一个模型,请转到 Model Garden 并选择要部署的模型。

前往 Model Garden

每个模型卡片都会显示以下一个或多个部署选项:

  • 部署按钮:Model Garden 中的大多数生成模型都有一个部署按钮,可引导您部署到 Vertex AI。如果您没有看到部署按钮,请转到下一个项目符号。

    对于 Vertex AI 上的部署,您还可以选择具有推荐设置的一键式部署高级方法,以便精细控制如何将模型保存到 Model Registry 以及部署到 Vertex AI 端点。

  • 打开笔记本按钮:此选项会打开 Jupyter 笔记本。每个模型卡片都会显示此选项。Jupyter 笔记本包含用于将模型上传到 Model Registry、将模型部署到端点以及发送提示请求的说明和示例代码。

部署完成并且端点处于活跃状态后,便已准备好通过其 URI 接受提示请求。API 的格式为 predict,请求正文中每个 instance 的格式取决于模型。如需了解详情,请参阅以下资源:

请确保您有足够的机器配额来部署模型。如需查看当前配额或申请增加配额,请在 Google Cloud 控制台中转到配额页面。

转到“配额”

然后,按配额名称 Custom Model Serving 进行过滤,以查看用于在线预测的配额。如需了解详情,请参阅查看和管理配额

查看或管理模型

对于调优后的模型,您可以在 Google Cloud 控制台的调参和蒸馏页面上查看模型及其调优作业。

转到“调参和蒸馏”

您还可以在 Model Registry 中查看和管理所有上传的模型。

前往 Model Registry

在 Model Registry 中,调优后的模型归类为“大型模型”,并且具有指定基础模型以及用于调优的流水线或调优作业的标签。

使用部署按钮部署的模型会指示 Model Garden 作为其 Source。请注意,当模型在 Model Garden 中更新时,Model Registry 中上传的模型不会更新。

如需了解详情,请参阅 Vertex AI Model Registry 简介

查看或管理端点

如需查看和管理端点,请转到 Vertex AI 在线预测页面。默认情况下,端点的名称与模型的名称相同。

转到“在线预测”

如需了解详情,请参阅将模型部署到端点

价格

对于调优后的模型,您需要按词元付费,费率与用于对模型调优的基础模型相同。端点不会产生任何费用,因为调优作为基础模型之上的小型适配器来实现。如需了解详情,请参阅 Vertex AI 上的生成式 AI 的价格

对于没有托管式 API 的模型,您需要为端点使用的机器小时数付费,费率与 Vertex AI 在线预测相同。您无需按词元付费。如需了解详情,请参阅 Vertex AI 中的预测的价格

后续步骤