在 Vertex AI 上创建 Ray 集群

您可以使用控制台或使用 Python 版 Vertex AI SDK 在 Vertex AI 上创建 Ray 集群。

在开始之前,请务必阅读 Ray on Vertex AI 概览设置您需要的所有必要工具。

控制台

  1. 在 Google Cloud 控制台中,转至“Ray on Vertex AI”页面。

    转至“Ray on Vertex AI”页面

  2. 点击创建集群以打开创建集群面板。

  3. 对于创建集群面板中的每个步骤,请查看或替换默认集群信息。点击继续以完成各个步骤:

    1. 名称和区域中,为集群指定名称并选择区域

    2. 计算设置中,指定 Vertex AI 上的 Ray 集群的头节点的配置,包括其机器类型、加速器类型和数量、磁盘类型和大小以及副本数量。在高级选项下,您可以指定加密密钥。

    3. 网络部分,指定要用于 Ray on Vertex AI 的 VPC 对等互连网络。

      如果您还没有为 VPC 网络设置专用服务访问通道连接,请点击设置连接。在创建专用服务访问通道连接面板中,完成并点击以下步骤中的继续

      1. 启用 Service Networking API

      2. 对于分配 IP 范围,您可以选择、创建或允许 Google 自动分配 IP 范围。

      3. 对于创建连接,查看网络分配的 IP 范围信息。

      4. 点击创建连接

  4. 点击创建

Ray on Vertex AI SDK

在 VPC 网络中的交互式 Python 环境中,使用以下内容在 Vertex AI 上创建 Ray 集群:

import ray
import vertex_ray
from google.cloud import aiplatform
from vertex_ray import Resources

# Define a default CPU cluster, machine_type is n1-standard-8, 1 head node and 1 worker node
head_node_type = Resources()
worker_node_types = [Resources()]

# Or define a GPU cluster.
head_node_type = Resources(
  machine_type="n1-standard-8",
  node_count=1,
)

worker_node_types = [Resources(
  machine_type="n1-standard-8",
  node_count=2,  # Can be > 1
  accelerator_type="NVIDIA_TESLA_K80",
  accelerator_count=1,
)]

aiplatform.init()
# Initialize Vertex AI to retrieve projects for downstream operations.
# Create the Ray cluster on Vertex AI
CLUSTER_RESOURCE_NAME = vertex_ray.create_ray_cluster(
  head_node_type=head_node_type,
  network=NETWORK,
  worker_node_types=worker_node_types,
  python_version="3.10",  # Optional
  ray_version="2.9",  # Optional
  cluster_name = CLUSTER_NAME
)

其中:

  • CLUSTER_NAME:Vertex AI 上的 Ray 集群的名称,该名称在项目中必须是唯一的。

  • NETWORK 是对等互连 VPC 网络的完整名称,格式为 projects/PROJECT_NUMBER/global/networks/VPC_NAME

  • PROJECT_NUMBER 是您的 Google Cloud 项目编号。

在状态更改为 RUNNING 之前,您应该会看到以下输出:

[Ray on Vertex AI]: Cluster State = State.PROVISIONING
Waiting for cluster provisioning; attempt 1; sleeping for 0:02:30 seconds
...
[Ray on Vertex AI]: Cluster State = State.RUNNING

请注意以下几点:

  • 第一个节点用作头节点。

  • 不支持 TPU 机器类型。

后续步骤