RUNNING
或 ERROR
状态的任何永久性资源。
通过重新启动永久性资源,您可以从永久性资源无法自行恢复的错误中恢复。您还可以重新启动永久性资源以手动获取最新的集群。本页面介绍如何使用 Google Cloud 控制台和 REST API 重新启动永久性资源。
所需的角色
如需获得重新启动永久性资源所需的权限,请让管理员向您授予项目的 Vertex AI Administrator (roles/aiplatform.admin
) IAM 角色。如需详细了解如何授予角色,请参阅管理访问权限。
此预定义角色包含重新启动永久性资源所需的 aiplatform.persistentResources.update
权限。
重新启动永久性资源
根据需要选择以下任一标签页,了解如何重新启动永久性资源。确保永久性资源上没有正在运行的训练作业。
控制台
如需在 Google Cloud 控制台中重新启动永久性资源,请执行以下操作:
在 Google Cloud 控制台中,转到永久性资源页面。
在要重新启动的永久性资源的名称旁边,点击垂直省略号 (
)。点击重新启动。
点击确认。
REST
在使用任何请求数据之前,请先进行以下替换:
- PROJECT_ID:您要重新启动的永久性资源的项目 ID。
- LOCATION:您要重新启动的永久性资源所在的区域。
- PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。
HTTP 方法和网址:
POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
重新启动永久性资源是一项长时间运行的操作,在此期间无法删除永久性资源。该操作包含 progressMessage
字段,如果发生错误,则该字段会填充错误状态。在操作指示 "done: true"
后,请检查永久性资源的状态。如果永久性资源处于 RUNNING
状态,则表示重新启动成功并且可以开始运行训练作业。
限制
以下是重新启动永久性资源的限制:
- 在某些情况下,重新启动永久性资源时,可能会失去稀缺资源的容量。无法保证完整资源保留。
- Ray on Vertex AI 不支持重新启动。
- 包含自动扩缩的工作器池的永久性资源会以最少的副本数重新启动。