GPU 호스트 유지보수 이벤트 처리

Compute Engine이 연결된 그래픽 처리 장치(GPU)가 있는 가상 머신(VM)에서 유지보수를 수행할 때 VM을 중지해야 합니다. GPU가 연결된 VM은 라이브 마이그레이션할 수 없기 때문입니다.

이러한 VM이 호스트 유지보수 이벤트 중에 중지되도록 설정해야 합니다. 유지보수 이벤트가 완료되면 중지된 VM이 자동으로 다시 시작되도록 설정할 수 있습니다.

호스트 유지보수 이벤트는 일반적으로 2주에 한 번 발생하지만 더 자주 실행될 수 있습니다.

이 문서에서는 유지보수 이벤트 중 워크로드 중단을 최소화하는 방법을 설명합니다.

유지보수 이벤트 전에 사전 알림 수신

가상 머신(VM) 인스턴스의 유지보수 일정을 모니터링하고 시스템 재시작을 통해 워크로드가 전환되도록 준비할 수 있습니다.

호스트 이벤트에 대한 사전 알림을 받으려면 /computeMetadata/v1/instance/maintenance-event 메타데이터 값을 모니터링합니다. 메타데이터 서버 요청으로 NONE이 반환되면 VM이 중지되도록 예약되지 않은 것입니다. 예를 들어 VM 내에서 다음 명령어를 실행합니다.

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

메타데이터 서버가 TERMINATE_ON_HOST_MAINTENANCE를 반환하면 VM이 중지되도록 예약된 것입니다. Compute Engine에서는 GPU VM에 1시간 전에 알림을 전송하지만 일반적인 VM의 경우에는 중지 60초 전에 알림을 전송합니다. 애플리케이션이 유지보수 이벤트 중에 전환되도록 구성합니다. 예를 들어 다음 방법 중 하나를 사용할 수 있습니다.

진행 중인 작업을 Cloud Storage 버킷으로 임시 이전한 후 VM이 다시 시작된 후에 해당 데이터를 검색하도록 애플리케이션을 구성합니다.
보조 영구 디스크에 데이터를 씁니다. VM이 자동으로 다시 시작되면 영구 디스크를 다시 연결할 수 있으며 애플리케이션이 작업을 다시 시작할 수 있습니다.

다음 단계

GPU 플랫폼 자세히 알아보기
VM 그룹 관리 및 확장에 대한 자세한 내용은 그룹의 대상 크기 설정 참조하기
GPU 성능을 모니터링하려면 GPU 성능 모니터링 참조하기
네트워크 성능을 향상시키려면 더 높은 네트워크 대역폭 사용 참조하기
VM 종료 및 재부팅 문제 해결 방법 알아보기