Generative AI-Modelle bereitstellen

Auf dieser Seite finden Sie eine Anleitung zum Bereitstellen eines generativen KI-Modells an einem Endpunkt für die Onlinevorhersage.

Model Garden prüfen

Wenn sich das Modell in Model Garden befindet, können Sie es bereitstellen. Klicken Sie dazu auf Bereitstellen (für einige Modelle verfügbar) oder auf Notebook öffnen.

Zu Model Garden

Andernfalls haben Sie folgende Möglichkeiten:

Wenn Ihr Modell einem Modell im Model Garden ähnelt, können Sie einen der Modell Garden-Container möglicherweise direkt wiederverwenden.
Erstellen Sie vor dem Modellimport in die Vertex AI Model Registry Ihren eigenen benutzerdefinierten Container, der die Anforderungen für benutzerdefinierte Container für die Vorhersage erfüllt. Nach dem Import wird er zu einer model-Ressource, die Sie auf einem Endpunkt bereitstellen können.

Sie können die Dockerfiles und Skripts, mit denen wir unsere Model Garden-Container erstellen, als Referenz oder als Ausgangspunkt für die Erstellung eigener benutzerdefinierter Container verwenden.

Einstellungen für benutzerdefinierte Container

In diesem Abschnitt werden Felder in der containerSpec Ihres Modells beschrieben, die Sie beim Importieren generativer KI-Modelle möglicherweise angeben müssen.

sharedMemorySizeMb

Einige generative KI-Modelle erfordern mehr gemeinsam genutzten Arbeitsspeicher. Ein gemeinsam genutzter Speicher ist ein IPC-Mechanismus (Inter-Process Communication), der es mehreren Prozessen ermöglicht, auf einen gemeinsamen Speicherblock zuzugreifen und diesen zu bearbeiten. Die Standardgröße des gemeinsam genutzten Speichers beträgt 64 MB.

Einige Modellserver wie vLLM oder Nvidia Triton verwenden gemeinsamen Speicher, um interne Daten während Modellinferenzen im Cache zu speichern. Ohne ein ausreichendes freigegebenes Modell können einige Modellserver keine Vorhersagen für generative Modelle bereitstellen. Die Größe des gemeinsam genutzten Arbeitsspeichers, falls vorhanden, ist ein Implementierungsdetail Ihres Containers und Modells. Richtlinien finden Sie in der Dokumentation des Modellservers.

Da gemeinsam genutzter Arbeitsspeicher für die GPU-Kommunikation verwendet werden kann, kann die Verwendung von mehr gemeinsam genutztem Speicher die Leistung für Beschleuniger ohne NVLink-Funktionen (z. B. L4) verbessern, wenn der Modellcontainer Kommunikation zwischen GPUs erfordert.

Informationen zum Angeben eines benutzerdefinierten Werts für den gemeinsam genutzten Speicher finden Sie unter Containerbezogene API-Felder.

startupProbe

Eine Startprüfung ist eine optionale Prüfung, mit der erkannt wird, wann der Container gestartet wurde. Mit dieser Prüfung können Sie die Systemdiagnose und Aktivitätsprüfungen verzögern, bis der Container gestartet wurde. Dadurch wird verhindert, dass langsam startende Container vorzeitig heruntergefahren werden.

Weitere Informationen finden Sie unter Systemdiagnosen.

healthProbe

Die Systemdiagnose prüft, ob ein Container bereit ist, Traffic entgegenzunehmen. Wenn keine Systemdiagnose bereitgestellt ist, verwendet Vertex AI die standardmäßigen Systemdiagnosen, die eine HTTP-Anfrage an den Port des Containers senden und nach einer 200 OK-Antwort vom Modellserver sucht.

Wenn Ihr Modellserver mit 200 OK antwortet, bevor das Modell vollständig geladen ist, was insbesondere bei großen Modellen möglich ist, dann ist die Systemdiagnose vorzeitig erfolgreich und Vertex AI leitet den Traffic an den Container weiter, bevor dieser fertig ist.

Geben Sie in diesen Fällen eine benutzerdefinierte Systemdiagnose an, die erst erfolgreich ist, wenn das Modell vollständig geladen wurde und bereit ist, Traffic entgegenzunehmen.

Weitere Informationen finden Sie unter Systemdiagnosen.