생성형 AI 모델 배포

이 페이지에서는 온라인 예측을 위해 엔드포인트에 생성형 AI 모델을 배포하는 방법을 안내합니다.

Model Garden 확인

모델이 Model Garden에 있으면 배포(일부 모델에서 사용 가능) 또는 노트북 열기를 클릭하여 배포할 수 있습니다.

Model Garden으로 이동

그렇지 않으면 다음 중 하나를 수행할 수 있습니다.

커스텀 컨테이너 설정

이 섹션에서는 생성형 AI 모델을 가져올 때 지정해야 할 수 있는 모델의 containerSpec의 필드에 대해 설명합니다.

sharedMemorySizeMb

일부 생성형 AI 모델은 더 많은 공유 메모리가 필요합니다. 공유 메모리는 여러 프로세스가 공통 메모리 블록을 액세스 및 조작하도록 허용하는 프로세스 간 커뮤니케이션(IPC) 메커니즘입니다. 기본 공유 메모리 크기는 64MB입니다.

vLLM 또는 Nvidia Triton과 같은 일부 모델 서버는 공유 메모리를 사용해서 모델 추론 중 내부 데이터를 캐시합니다. 공유 모델이 충분하지 않으면 일부 모델 서버가 생성형 모델을 위한 예측을 제공할 수 없습니다. 필요한 공유 메모리 양은 컨테이너 및 모델에 대한 구현 세부정보입니다. 가이드라인은 해당 모델 서버 문서를 참조하세요.

또한 GPU 커뮤니케이션 전반에서 공유 메모리를 사용할 수 있기 때문에 모델 컨테이너에 GPU 간 커뮤니케이션이 필요한 경우 더 많은 공유 메모리를 사용하면 NVLink 기능(예: L4) 없이도 가속기 성능을 향상시킬 수 있습니다.

공유 메모리의 커스텀 값을 지정하는 방법은 컨테이너 관련 API 필드를 참조하세요.

startupProbe

시작 프로브는 컨테이너가 시작되었을 때 이를 감지하기 위해 사용되는 선택적인 프로브입니다. 이 프로브는 컨테이너가 시작될 때까지 상태 프로브 및 활성 확인을 지연시키기 위해 사용됩니다. 따라서 느리게 시작되는 컨테이너가 조기에 종료되지 않도록 방지하는 데 도움이 됩니다.

자세한 내용은 상태 점검을 참조하세요.

healthProbe

상태 프로브는 컨테이너에서 트래픽을 수락할 준비가 되었는지 확인합니다. 상태 프로브가 제공되지 않았으면 Vertex AI에서 컨테이너 포트에 대해 HTTP 요청을 수행하고 모델 서버에서 200 OK 응답을 확인하는 기본 상태 점검이 사용됩니다.

대규 모델에서 발생 가능한 경우와 같이 모델이 완전히 로드되기 전에 모델 서버가 200 OK로 응답하면 상태 점검이 작업을 성공한 것으로 잘못 표시되고 준비가 완료되기 전에 Vertex AI가 트래픽을 컨테이너로 라우팅합니다.

이러한 경우 모델이 완전히 로드되고 트래픽을 수락할 준비가 완료된 다음에만 작업이 성공하는 커스텀 상태 프로브를 지정합니다.

자세한 내용은 상태 점검을 참조하세요.