Men-deploy model AI generatif

Halaman ini memberikan panduan untuk men-deploy model AI generatif ke endpoint untuk prediksi online.

Lihat Model Garden

Jika model berada di Model Garden, Anda dapat men-deploy-nya dengan mengklik Deploy (tersedia untuk beberapa model) atau Buka Notebook.

Buka Model Garden

Jika tidak, Anda dapat melakukan salah satu hal berikut:

Setelan untuk container kustom

Bagian ini menjelaskan kolom dalam containerSpec model Anda yang mungkin perlu ditentukan saat mengimpor model AI generatif.

sharedMemorySizeMb

Beberapa model AI generatif memerlukan lebih banyak memori bersama. Memori bersama adalah mekanisme komunikasi antarproses (IPC) yang memungkinkan beberapa proses mengakses dan memanipulasi blok memori umum. Ukuran memori bersama default adalah 64 MB.

Beberapa server model, seperti vLLM atau Nvidia Triton, menggunakan memori bersama untuk meng-cache data internal selama inferensi model. Tanpa model bersama yang memadai, beberapa server model tidak dapat memberikan prediksi untuk model generatif. Jumlah memori bersama yang diperlukan, jika ada, adalah detail implementasi dari container dan model Anda. Lihat dokumentasi server model Anda untuk mendapatkan panduan.

Selain itu, karena memori bersama dapat digunakan untuk komunikasi lintas GPU, penggunaan lebih banyak memori bersama dapat meningkatkan performa akselerator tanpa kemampuan NVLink (misalnya, L4), jika container model memerlukan komunikasi di seluruh GPU.

Untuk mengetahui informasi cara menentukan nilai kustom untuk memori bersama, lihat kolom API terkait container.

startupProbe

Pemeriksaan startup adalah pemeriksaan opsional yang digunakan untuk mendeteksi kapan container telah dimulai. Pemeriksaan ini digunakan untuk menunda pemeriksaan kesehatan dan pemeriksaan keaktifan hingga container dimulai, yang membantu mencegah container awal yang lambat dinonaktifkan sebelum waktunya.

Untuk mengetahui informasi selengkapnya, lihat Health check.

healthProbe

Health check memeriksa apakah container siap menerima traffic. Jika pemeriksaan kondisi tidak disediakan, Vertex AI akan menggunakan health check default yang mengeluarkan permintaan HTTP ke port container dan mencari respons 200 OK dari server model.

Jika server model Anda merespons dengan 200 OK sebelum model dimuat sepenuhnya, yang memungkinkan, terutama untuk model besar, health check akan berhasil sebelum waktunya dan Vertex AI akan mengarahkan traffic ke penampung sebelum siap.

Dalam kasus ini, tentukan pemeriksaan kesehatan kustom yang berhasil hanya setelah model dimuat sepenuhnya dan siap menerima traffic.

Untuk mengetahui informasi selengkapnya, lihat Health check.