生成 AI モデルをデプロイする

このページでは、オンライン予測用のエンドポイントに生成 AI モデルをデプロイするためのガイダンスについて説明します。

Model Garden を確認する

モデルが Model Garden にある場合は、[デプロイ](一部のモデルで利用可能)または [ノートブックを開く] をクリックしてデプロイできます。

Model Garden に移動

それ以外の場合は、次のいずれかを行います。

カスタム コンテナの設定

このセクションでは、生成 AI モデルをインポートする際に指定する必要のあるモデルの containerSpec のフィールドについて説明します。

sharedMemorySizeMb

一部の生成 AI モデルでは、より多くの共有メモリが必要になります。共有メモリは、複数のプロセスがメモリの共通ブロックにアクセスして操作できるようにするプロセス間通信(IPC)のメカニズムです。共有メモリのデフォルト サイズは 64 MB です。

vLLM や Nvidia Triton などの一部のモデルサーバーは、モデルの推定中に共有メモリを使用して内部データをキャッシュに保存します。一部のモデルサーバーは、十分な共有モデルがないと生成モデルの予測を提供できません。必要な共有メモリの量は、コンテナとモデルの実装の詳細によって異なります。ガイドラインについては、モデルサーバーのドキュメントをご覧ください。

また、共有メモリは GPU 間の通信にも使用できるため、モデルコンテナが GPU 間の通信を必要とする場合、共有メモリを多く使用すると、NVLink 機能のないアクセラレータ(L4 など)のパフォーマンスが向上します。

共有メモリにカスタム値を指定する方法については、コンテナ関連の API フィールドをご覧ください。

startupProbe

起動プローブは、コンテナの起動を検出するために使用するオプションのプローブです。このプローブは、コンテナが起動するまでヘルスプローブと実行チェックを遅らせて、起動に時間がかかるコンテナが早期にシャットダウンされるのを防ぐために使用されます。

詳細については、ヘルスチェックをご覧ください。

healthProbe

ヘルスプローブは、コンテナがトラフィックを受け入れる準備ができているかどうかを確認します。ヘルスプローブが指定されていない場合、Vertex AI はデフォルトのヘルスチェックを使用します。このヘルスチェックは、コンテナのポートに HTTP リクエストを発行し、モデルサーバーからの 200 OK レスポンスを探します。

モデルが完全に読み込まれる前にモデルサーバーが 200 OK で応答した場合(特に大規模なモデルの場合)、ヘルスチェックが早期に成功し、準備ができる前に Vertex AI がトラフィックをコンテナにルーティングします。

このような場合は、モデルが完全に読み込まれてトラフィックの受け入れが可能になってから成功するカスタム正常性プローブを指定します。

詳細については、ヘルスチェックをご覧ください。