Cloud TPU VM에 모델 배포

Google Cloud는 TPU(Tensor Processing Unit)라는 커스텀 설계 머신러닝 가속기에 대한 액세스를 제공합니다. TPU는 머신러닝 모델의 학습과 추론을 가속화하도록 최적화되어 있으므로 자연어 처리, 컴퓨터 비전, 음성 인식을 비롯한 다양한 애플리케이션에 적합합니다.

이 페이지에서는 Vertex AI에서 온라인 예측을 위해 단일 호스트 Cloud TPU v5e에 모델을 배포하는 방법을 설명합니다.

Cloud TPU 버전 v5e만 지원됩니다. 다른 Cloud TPU 세대는 지원되지 않습니다.

모델 가져오기

Cloud TPU에 배포하려면 모델을 Vertex AI로 가져와 다음 컨테이너 중 하나를 사용하도록 구성해야 합니다.

nightly 버전 또는 버전 2.15 이상의 사전 빌드된 최적화된 TensorFlow 런타임 컨테이너
사전 빌드된 PyTorch TPU 컨테이너 버전 2.1 이상
TPU를 지원하는 자체 커스텀 컨테이너

사전 빌드된 최적화된 TensorFlow 런타임 컨테이너

Cloud TPU에서 SavedModel을 가져와 실행하려면 모델이 TPU에 최적화되어 있어야 합니다. TensorFlow SavedModel이 아직 TPU에 최적화되지 않은 경우 다음 세 가지 방법으로 모델을 최적화할 수 있습니다.

수동 모델 최적화 - 추론 변환기를 사용하여 모델을 최적화하고 저장합니다. 그런 다음 모델을 upload할 때 --saved_model_tags='serve,tpu' 및 --disable_optimizer=true 플래그를 통과해야 합니다. 예를 들면 다음과 같습니다.

model = aiplatform.Model.upload(
    display_name='Manually optimized model',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
    serving_container_args=[
        "--saved_model_tags=serve,tpu",
        "--disable_optimizer=true",
    ]
)

자동 파티션 나누기로 자동 모델 최적화 - 모델을 가져오면 Vertex AI는 자동 파티션 나누기 알고리즘을 사용하여 최적화되지 않은 모델을 최적화하려고 시도합니다. 일부 모델에서는 이 최적화가 작동하지 않습니다. 최적화에 실패하면 모델을 수동으로 최적화하거나 수동 파티션 나누기로 자동 모델 최적화를 선택해야 합니다. 예를 들면 다음과 같습니다.
```
model = aiplatform.Model.upload(
    display_name='TPU optimized model with automatic partitioning',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
    serving_container_args=[
    ]
)
```

수동 파티션 나누기를 사용한 자동 모델 최적화 --converter_options_string 플래그를 지정하고 ConverterOptions.TpuFunction을 필요에 맞게 조정합니다. 예시를 보려면 변환기 이미지를 참조하세요. 수동 파티션 나누기에 필요한 ConverterOptions.TpuFunction만 지원됩니다. 예를 들면 다음과 같습니다.

model = aiplatform.Model.upload(
display_name='TPU optimized model with manual partitioning',
  artifact_uri="gs://model-artifact-uri",
  serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
  serving_container_args=[
      "--converter_options_string='tpu_functions { function_alias: \"partitioning function name\" }'"
  ]
)

모델 가져오기에 대한 자세한 내용은 Vertex AI로 모델 가져오기를 참조하세요.

사전 빌드된 PyTorch 컨테이너

Cloud TPU에서 PyTorch 모델을 가져오고 실행하라는 안내는 PyTorch 모델을 가져오고 실행하라는 안내와 동일합니다.

예를 들어 CloudServe v5e 추론을 위한 TorchServe는 Torch Model Archiver를 사용하여 Densenet 161 모델을 모델 아티팩트로 패키징하는 방법을 보여줍니다.

그런 다음 모델 아티팩트를 Cloud Storage 폴더에 업로드하고 다음과 같이 모델을 업로드합니다.

model = aiplatform.Model.upload(
    display_name='DenseNet TPU model from SDK PyTorch 2.1',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai/prediction/pytorch-tpu.2-1:latest",
    serving_container_args=[],
    serving_container_predict_route="/predictions/model",
    serving_container_health_route="/ping",
    serving_container_ports=[8080]
)

자세한 내용은 PyTorch 모델 아티팩트 내보내기와 사전 빌드된 컨테이너를 사용하여 PyTorch 모델 제공 관련 Jupyter 노트북을 참조하세요.

커스텀 컨테이너

커스텀 컨테이너의 경우 모델이 TensorFlow 모델일 필요는 없지만 TPU에 최적화되어야 합니다. TPU 최적화 모델 생성에 대한 자세한 내용은 일반적인 ML 프레임워크에 대한 다음 가이드를 참조하세요.

Cloud TPU v5e에서 JAX, TensorFlow 또는 PyTorch로 학습된 제공 모델에 대한 자세한 내용은 Cloud TPU v5e 추론을 참조하세요.

커스텀 컨테이너가 커스텀 컨테이너 요구사항을 충족하는지 확인합니다.

드라이버가 직접 메모리 액세스(DMA)를 통해 TPU 칩과 통신할 수 있도록 잠김 메모리 한도를 늘려야 합니다. 예를 들면 다음과 같습니다.

명령줄

ulimit -l 68719476736

Python

import resource

resource.setrlimit(
    resource.RLIMIT_MEMLOCK,
    (
        68_719_476_736_000,  # soft limit
        68_719_476_736_000,  # hard limit
    ),
  )

그런 다음 커스텀 컨테이너로 모델을 가져오는 방법에 대한 자세한 내용은 예측용 커스텀 컨테이너 사용을 참조하세요. 사전 또는 사후 처리 논리를 구현하려면 커스텀 예측 루틴을 사용하는 것이 좋습니다.

엔드포인트 만들기

Cloud TPU의 엔드포인트를 만드는 안내는 엔드포인트를 만드는 안내와 동일합니다.

예를 들어 다음 명령어는 endpoint 리소스를 만듭니다.

endpoint = aiplatform.Endpoint.create(display_name='My endpoint')

응답에는 새 엔드포인트의 ID가 포함되며, 후속 단계에서 사용됩니다.

엔드포인트 만들기에 대한 자세한 내용은 엔드포인트에 모델 배포를 참조하세요.

모델 배포

Cloud TPU에 모델을 배포하는 방법은 다음과 같이 지원되는 Cloud TPU 머신 유형 중 하나를 지정하는 경우를 제외하고 모든 모델을 배포하는 방법과 동일합니다.

머신 유형	TPU 칩 수
`ct5lp-hightpu-1t`	1
`ct5lp-hightpu-4t`	4
`ct5lp-hightpu-8t`	8

TPU 가속기는 머신 유형에 기본 제공됩니다. 가속기 유형 또는 가속기 수를 지정할 필요가 없습니다.

예를 들어 다음 명령어는 deployModel을 호출하여 모델을 배포합니다.

machine_type = 'ct5lp-hightpu-1t'

deployed_model = model.deploy(
    endpoint=endpoint,
    deployed_model_display_name='My deployed model',
    machine_type=machine_type,
    traffic_percentage=100,
    min_replica_count=1
    sync=True,
)

자세한 내용은 엔드포인트에 모델 배포를 참조하세요.

온라인 예측 수행

Cloud TPU에서 온라인 예측 가져오기에 대한 안내는 온라인 예측 가져오기에 대한 안내와 동일합니다.

예를 들어 다음 명령어는 predict를 호출하여 온라인 예측 요청을 보냅니다.

deployed_model.predict(...)

커스텀 컨테이너의 경우 커스텀 컨테이너에 대한 예측 요청 및 응답 요구사항을 참조하세요.

용량 확보

기본적으로 Custom model serving TPU v5e cores per region의 할당량은 0입니다.

상향을 요청하려면 할당량 한도 상향 요청을 참조하세요.

가격 책정

TPU 머신 유형은 Vertex Prediction의 다른 모든 머신 유형과 마찬가지로 시간당 청구됩니다. 자세한 내용은 예측 가격 책정을 참조하세요.

다음 단계

온라인 예측 가져오기 방법 알아보기