Testen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können. Tesen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können.

Generative KI-Modelle bereitstellen

Einige generative KI-Modelle wie Gemini haben verwaltete APIs und können Eingabeaufforderungen ohne Bereitstellung akzeptieren. Eine Liste der Modelle mit verwalteten APIs finden Sie unter Grundlegende Modell-APIs.

Andere generative KI-Modelle müssen auf einem Endpunkt bereitgestellt werden, bevor sie Prompts akzeptieren können. Es gibt zwei Arten von generativen Modellen, die bereitgestellt werden müssen:

Abgestimmte Modelle, die Sie durch Feinabstimmung eines unterstützten Foundation Models mit Ihren eigenen Daten erstellen.
Generative Modelle ohne verwaltete APIs. Im Model Garden sind dies Modelle, die nicht als API verfügbar oder Vertex AI Studio gekennzeichnet sind, z. B. Llama 2.

Wenn Sie ein Modell auf einem Endpunkt bereitstellen, verknüpft Vertex AI mit dem Modell Rechenressourcen und einen URI, damit Prompt-Anfragen verarbeitet werden können.

Feinabgestimmtes Modell bereitstellen

Abgestimmte Modelle werden automatisch in die Vertex AI Model Registry hochgeladen und in einem Vertex AI-endpoint bereitgestellt. Abgestimmte Modelle werden nicht im Model Garden angezeigt, da sie auf Ihre Daten abgestimmt sind. Weitere Informationen finden Sie unter Modellabstimmung – Übersicht.

Sobald der Endpunkt aktiv ist, kann er Prompt-Anfragen an seinen URI akzeptieren. Das Format des API-Aufrufs für ein abgestimmtes Modell entspricht dem Basismodell, aus dem er optimiert wurde. Wenn Ihr Modell beispielsweise auf Gemini optimiert ist, sollte Ihre Prompt-Anfrage der Gemini API folgen.

Achten Sie darauf, dass Sie Prompt-Anfragen an den Endpunkt Ihres feinabgestimmten Modells statt an die verwaltete API senden. Der Endpunkt des feinabgestimmten Modells hat folgendes Format:

http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Informationen zum Abrufen der Endpunkt-ID finden Sie unter Endpunkt ansehen oder verwalten.

Weitere Informationen zum Formatieren von Eingabeanfragen finden Sie in der Referenz zur Model API.

Generatives Modell ohne verwaltete API bereitstellen

Wenn Sie ein Modell aus dem Model Garden verwenden möchten, das keine verwaltete API hat, müssen Sie das Modell in Model Registry hochladen und auf einem Endpunkt bereitstellen, bevor Sie Prompt-Anfragen senden können. Dies ist mit dem Hochladen und Bereitstellen eines benutzerdefinierten trainierten Modells für Onlinevorhersagen in Vertex AI vergleichbar.

Wenn Sie eines dieser Modelle bereitstellen möchten, rufen Sie Model Garden auf und wählen Sie das gewünschte Modell aus.

Zu Model Garden

Jede Modellkarte zeigt eine oder mehrere der folgenden Bereitstellungsoptionen an:

Schaltfläche Bereitstellen: Die meisten generativen Modelle im Model Garden haben eine Schaltfläche Bereitstellen, die Sie durch die Bereitstellung in Vertex AI führt. Wenn die Schaltfläche Bereitstellen nicht angezeigt wird, fahren Sie mit dem nächsten Punkt fort.

Für die Bereitstellung in Vertex AI können Sie auch zwischen Bereitstellung mit nur einem Klick und empfohlenen Einstellungen oder Erweitert wählen, um detaillierte Kontrollen darüber zu erhalten, wie das Modell in Model Registry gespeichert und auf einem Vertex AI-Endpunkt bereitgestellt wird.

Hinweis: Einige Modelle unterstützen auch die Bereitstellung in Google Kubernetes Engine, einer nicht verwalteten Lösung, die Ihnen noch mehr Kontrolle bietet. Weitere Informationen finden Sie unter Modell mit einer einzelnen GPU in GKE bereitstellen.
Schaltfläche Notebook öffnen: Bei dieser Option wird ein Jupyter-Notebook geöffnet. Diese Option wird auf jeder Modellkarte angezeigt. Das Jupyter-Notebook enthält Anleitungen und Beispielcode zum Hochladen des Modells in Model Registry, zum Bereitstellen des Modells auf einem Endpunkt und zum Senden einer Prompt-Anfrage.

Wenn die Bereitstellung abgeschlossen ist und der Endpunkt aktiv ist, kann er Prompt-Anfragen an den URI akzeptieren. Das Format der API ist predict und das Format jedes instance im Anfragetext hängt vom Modell ab. “ Weitere Informationen finden Sie in den folgenden Ressourcen:

Achten Sie darauf, dass Ihr Maschinenkontingent zum Bereitstellen des Modells ausreicht. Wenn Sie Ihr aktuelles Kontingent aufrufen oder ein höheres Kontingent anfordern möchten, rufen Sie in der Google Cloud Console die Seite Kontingente auf.

Kontingente aufrufen

Filtern Sie dann nach dem Kontingentnamen Custom Model Serving, um die Kontingente für die Onlinevorhersage anzuzeigen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Modell aufrufen oder verwalten

Für feinabgestimmte Modelle können Sie das Modell und seinen Abstimmungsjob auf der Seite Abstimmen und Destillieren in der Google Cloud Console anzeigen.

Zu "Tunen und Destill"

Sie können auch alle hochgeladenen Modelle in Model Registry aufrufen und verwalten.

Zu Model Registry

In Model Registry wird ein abgestimmtes Modell als großes Modell kategorisiert und hat Labels, die das Basismodell und die Pipeline oder den Abstimmungsjob angeben, der für die Abstimmung verwendet wurde.

Bei Modellen, die mit der Schaltfläche Bereitstellen bereitgestellt werden, wird Model Garden als Source angezeigt. Beachten Sie, dass das hochgeladene Modell in Model Registry nicht aktualisiert wird, wenn das Modell in Model Garden aktualisiert wird.

Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.

Endpunkt aufrufen oder verwalten

Rufen Sie die Vertex AI-Seite Onlinevorhersage auf, um Ihren Endpunkt aufzurufen und zu verwalten. Standardmäßig entspricht der Name des Endpunkts dem Namen des Modells.

Zur Onlinevorhersage

Weitere Informationen finden Sie unter Modell auf einem Endpunkt bereitstellen.

Preise

Bei abgestimmten Modellen wird Ihnen der gleiche Preis pro Token in Rechnung gestellt wie für das Basismodell, aus dem Ihr Modell optimiert wurde. Für den Endpunkt fallen keine Kosten an, da die Abstimmung als kleiner Adapter auf dem Basismodell implementiert wird. Weitere Informationen finden Sie unter Preise für Generative AI in Vertex AI.

Bei Modellen ohne verwaltete APIs werden Ihnen die von Ihrem Endpunkt verwendeten Maschinenstunden zum selben Preis wie Vertex AI-Onlinevorhersagen in Rechnung gestellt. Die Abrechnung erfolgt nicht pro Token. Weitere Informationen finden Sie unter Preise für Vorhersagen in Vertex AI.