カスタムコンテナの概要

カスタムコンテナは、トレーニングアプリケーションを実行するために作成する Docker イメージです。カスタムコンテナで機械学習（ML）トレーニングジョブを実行することで、Vertex AI では通常サポートされていない ML フレームワーク、ML 以外の依存関係、ライブラリ、バイナリを使用できます。

コンテナを使用したトレーニングの仕組み

任意の ML フレームワークで実装したトレーニングアプリケーションが、トレーニングプロセスの中核となります。

任意の ML フレームワークを使用して、モデルをトレーニングするアプリケーションを作成します。
カスタムコンテナを使用するかどうかを決定します。すでに依存関係をサポートしているビルド済みのコンテナが存在する可能性があります。存在しない場合は、トレーニングジョブ用のカスタムコンテナをビルドする必要があります。カスタムコンテナ内で、トレーニングアプリケーションとそのすべての依存関係を、トレーニングジョブの実行に使用するイメージにプリインストールします。
Vertex AI がアクセスできるソースにトレーニングデータと検証データを格納します。認証を簡素化してレイテンシを減らすには、データを Cloud Storage または Bigtable に保存します。あるいは、Vertex AI で使用しているのと同じ Google Cloud プロジェクトとリージョンにある別の Google Cloud ストレージサービスに保存します。Vertex AI によるデータの読み込み方法をご確認ください。
アプリケーションを実行する準備が整ったら、確実に Vertex AI がレジストリにアクセスできるように、Docker イメージをビルドして、Artifact Registry または Docker Hub に push する必要があります。
カスタムジョブを作成するか、カスタムトレーニングパイプラインを作成して、カスタムトレーニングジョブを送信します。
Vertex AI により、ジョブのリソースが設定されます。さらに、ジョブの構成に基づいて 1 つ以上の仮想マシン（「トレーニングインスタンス」と呼ばれます）が割り当てられます。カスタムトレーニングジョブを送信する際に、WorkerPoolSpec オブジェクトの一部として指定したカスタムコンテナを使用して、トレーニングインスタンスを設定します。
Vertex AI で Docker イメージを実行します。その際、トレーニングジョブの作成時に指定したコマンドライン引数が渡されます。
トレーニングジョブが正常に終了するか、回復不能なエラーが発生すると、Vertex AI はすべてのジョブプロセスを停止してリソースをクリーンアップします。

カスタムコンテナの利点

カスタムコンテナを使用すると、アプリケーションに必要なすべての依存関係を指定してプリインストールできます。

起動時間が短縮されます。依存関係がプリインストールされたカスタムコンテナを使用すれば、トレーニングアプリケーションが起動時に依存関係をインストールする必要がなくなるため、その分の時間を節約できます。
任意の ML フレームワークを使用できます。使用したい ML フレームワークの Vertex AI ビルド済みコンテナが見つからない場合は、目的のフレームワークでカスタムコンテナをビルドし、それを使用して Vertex AI でジョブを実行できます。たとえば、PyTorch でトレーニングするためのカスタムコンテナを使用できます。
分散トレーニングがサポートされます。カスタムコンテナでは、任意の ML フレームワークを使用して分散トレーニングを行うことができます。
最新バージョンを使用してください。ML フレームワークの最新ビルドやマイナーバージョンを使用することもできます。たとえば、tf-nightly でトレーニングするためのカスタムコンテナをビルドできます。

カスタムコンテナでのハイパーパラメータ調整

Vertex AI 上でハイパーパラメータ調整を行うには、目標指標を指定し、各指標を最小化または最大化するかどうかを指定します。たとえば、モデル精度を最大化する必要がある場合もあれば、モデル損失を最小化する必要がある場合もあります。また、調整するハイパーパラメータと各ハイパーパラメータの許容値の範囲もリストにします。Vertex AI ではトレーニングアプリケーションのトライアルを複数回行い、トライアルが完了するたびにハイパーパラメータを追跡して調整します。ハイパーパラメータ調整ジョブが完了すると、Vertex AI は、ハイパーパラメータを最も効果的に構成するための値と、各トライアルのサマリーを報告します。

カスタムコンテナでハイパーパラメータ調整を行う手順は次のとおりです。

Dockerfile: cloudml-hypertune をインストールします。
トレーニングコード:
- cloudml-hypertune を使用し、そのヘルパー関数 report_hyperparameter_tuning_metric を呼び出して各トライアルの結果を報告します。
- 各ハイパーパラメータのコマンドライン引数を追加し、引数パーサー（argparse など）を使用して引数の解析を処理します。

カスタムコンテナを使用するハイパーパラメータ調整ジョブの構成方法や、Vertex AI でのハイパーパラメータ調整の仕組みについて確認してください。

カスタムコンテナ内の GPU

カスタムコンテナで GPU を使用してトレーニングする場合、いくつかの特殊な要件を満たす必要があります。CPU を使用したトレーニングに使用するものとは異なる Docker イメージをビルドする必要があります。

Docker イメージに CUDA ツールキットと cuDNN をプリインストールします。GPU をサポートするカスタムコンテナをビルドする場合に推奨される方法は、nvidia/cuda イメージをカスタムコンテナのベースイメージとして使用することです。nvidia/cuda コンテナイメージには CUDA ツールキットの対応するバージョンと cuDNN がプリインストールされているため、関連する環境変数の適切な設定がしやすくなっています。
Docker イメージに、トレーニングアプリケーションと必須の ML フレームワークおよびその他の依存関係をインストールします。

GPU を使用してトレーニングする場合の Dockerfile の例をご覧ください。

次のステップ

トレーニングジョブ用のカスタムコンテナの作成方法について確認する。

カスタム コンテナの概要

コンテナを使用したトレーニングの仕組み

カスタム コンテナの利点

カスタム コンテナでのハイパーパラメータ調整

カスタム コンテナ内の GPU

次のステップ

カスタムコンテナの概要

カスタムコンテナの利点

カスタムコンテナでのハイパーパラメータ調整

カスタムコンテナ内の GPU