-
Gemini API in Vertex AI testen
Erstellen Sie zuerst ein Google Cloud-Konto. Neukunden erhalten außerdem ein Guthaben im Wert von 300 $, um die Möglichkeiten von Gemini kennenzulernen.
-
Python SDK-Referenz für die Gemini API in Vertex AI
Vollständige Referenz zu generativer KI für das Python SDK für Vertex AI
-
Multimodales Prompt-Design
Lernen Sie Best Practices zum Entwerfen multimodaler Prompts kennen und sehen Sie sich Beispiel-Prompts an.
Multimodale Modelle für Gemini
Ein multimodales Modell ist ein Modell, das Informationen aus mehreren Modalitäten verarbeiten kann, einschließlich Bildern, Videos und Text. Sie können dem Modell zum Beispiel ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.
Gemini-Modelle
Die folgenden Gemini-Modelle sind verfügbar:
- Gemini 1.5 Flash: Das schnellste und kostengünstigste multimodale Gemini-Modell. Er wurde für kostengünstigere Aufgaben mit hohem Volumen und latenzempfindliche Anwendungen entwickelt. Da Gemini 1.5 Flash responsiver ist als andere Modelle, die mehr kosten, ist es eine gute Option zum Erstellen von Chatassistenten und On-Demand-Anwendungen zur Inhaltsgenerierung.
- Gemini 1.5 Pro: (Kann multimodal sein (Text, Bilder, Audio, PDFs, Code, Videos) und in großem Maßstab skaliert werden für Aufgabenbereich mit bis zu 1 Mio. Eingabetokens.
- Gemini 1.0 Pro wurde für Natural Language-Aufgaben, Text- und Code-Chats in mehreren Schritten und die Codegenerierung entwickelt.
- Gemini 1.0 Pro Vision: Unterstützt multimodale Prompts. Sie können Text, Bilder und Videos in Ihre Anfragen aufnehmen und Text- oder Codeantworten abrufen.
Anwendungsfälle für Gemini 1.5 Pro und Gemini 1.5 Flash
Gemini 1.5 Pro und Gemini 1.5 Flash unterstützen die Textgenerierung über einen Prompt, der eine oder eine Kombination der folgenden Modalitäten in einem Prompt enthält: Text, Code, PDFs, Bilder, Audio, Video. Ihre Anwendungsfälle umfassen unter anderem Folgendes:
Anwendungsfall | Beschreibung |
---|---|
Zusammenfassung | Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt. |
Suche nach visuellen Informationen | Nutzen Sie externes Wissen in Kombination mit Informationen, die aus dem Eingabebild oder -video extrahiert wurden, um Fragen zu beantworten. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung von Objekten in Bildern und Videos. |
Verständnis digitaler Inhalte | Beantworten Sie Fragen und extrahieren Sie Informationen aus visuellen Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten. |
Generierung strukturierter Inhalte | Generieren Sie Antworten anhand multimodaler Eingaben in Formaten wie HTML und JSON. |
Untertitel und Beschreibung | Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen. |
Videos im Langformat | Sie können lange Inhalte mit bis zu 1 Million Tokens für Text, Code, Bilder, Video und Audio verarbeiten. |
Logisches Denken | Neue Informationen durch Zusammensetzung ohne Speicherung oder Abruf ableiten |
Audio | Sprachdateien für Zusammenfassungen, Sprache-zu-Text-Funktionen und Fragen und Antworten analysieren. |
Audio- und Videoeinstellungen. | Fasst eine Videodatei mit Audio zusammen und gibt Kapitel mit Zeitstempeln zurück. |
Multimodale Verarbeitung | Verarbeitet mehrere Arten von Eingabemedien gleichzeitig, z. B. Video- und Audioeingabe. |
Anwendungsfälle für Gemini 1.0 Pro
Gemini 1.0 Pro unterstützt die Text- und Codegenerierung über einen Text-Prompt. Zu den Anwendungsfällen gehören unter anderem:
Anwendungsfall | Beschreibung |
---|---|
Zusammenfassung | Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt. |
Question Answering | Geben Sie Antworten auf Fragen im Text ein. Beispielsweise können Sie das Erstellen eines Dokuments mit häufig gestellten Fragen (FAQ) aus dem Inhalt der Wissensdatenbank automatisieren. |
Verständnis digitaler Inhalte | Weisen Sie dem bereitgestellten Text ein Label zu. Ein Label könnte beispielsweise auf Text angewendet werden und beschreiben, wie grammatikalisch korrekt er ist. |
Klassifikation | Weisen Sie ein Label zu, das den bereitgestellten Text beschreibt. Sie können beispielsweise Labels anwenden, die beschreiben, ob ein Textblock grammatikalisch korrekt ist. |
Informationssuche | Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos. |
Sentimentanalyse | Dies ist eine Form der Klassifizierung, die die Stimmung des Texts identifiziert. Die Stimmung wird in ein Label umgewandelt, das auf den Text angewendet wird. Die Stimmung eines Textes kann z. B. positiv oder negativ sein, oder Gefühle wie Ärger oder Freude zeigen. |
Entitätsextraktion | Erzeugen Sie Texte, indem Sie eine Reihe von Anforderungen und Hintergrundinformationen angeben. Sie können beispielsweise eine E-Mail in einem bestimmten Kontext erstellen und dabei einen bestimmten Ton verwenden. |
Codegenerierung | Code anhand einer Beschreibung generieren. Beispielsweise können Sie das Modell anweisen, eine Funktion zu schreiben, die prüft, ob ein Jahr ein Schaltjahr ist. |
Anwendungsfälle für Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision unterstützt die Textgenerierung mit Text, Bildern und Videos als Eingabe. Zu den Anwendungsfällen gehören unter anderem:
Anwendungsfall | Beschreibung |
---|---|
Informationssuche | Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos. |
Verständnis digitaler Inhalte | Beantworten Sie Fragen, indem Sie Informationen aus Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten extrahieren. |
Generierung strukturierter Inhalte | Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung. |
Untertitel/Beschreibung | Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen. |
Extrapolation | Überlegen, was in einem Bild nicht zu sehen ist oder was vor oder nach einem Video passiert. |
Objekterkennung in Fotos | Erkennen Sie ein Objekt in einem Bild und geben Sie eine Textbeschreibung des Objekts zurück. |
Informationen zu Artikeln in einem Bild zurückgeben | Verwenden Sie ein Bild, das mehrere Lebensmittel enthält. Gemini 1.0 Pro Vision kann Ihnen eine Schätzung des Betrags liefern, den Sie dafür zahlen sollten. |
Bildschirme und Oberflächen verstehen | Extrahieren Sie Informationen aus Appliance-Bildschirmen, Benutzeroberflächen und Layouts. Sie können beispielsweise ein Bild einer Appliance mit Gemini 1.0 Pro Vision verwenden, um eine Anleitung zur Verwendung der Appliance zu erhalten. |
Technische Diagramme verstehen | ER-Diagramme entschlüsseln, Beziehungen zwischen Tabellen verstehen und Anforderungen für die Optimierung in einer bestimmten Umgebung wie BigQuery ermitteln. |
Empfehlung auf Basis mehrerer Bilder erstellen | Anhand von Bildern von Brillen können Sie eine Empfehlung dazu erhalten, welches der Modelle am besten zu Ihrem Gesicht passt. |
Videobeschreibung generieren | Erkennen, was in einem Video gezeigt wird. Beispiel: Ein Video für ein Ferienziel zur Verfügung stellen, um eine Beschreibung des Reiseziels, die fünf wichtigsten Aktivitäten dort und Vorschläge für die Reise zu erhalten. |
Weitere Informationen zum Entwerfen von Prompts für verschiedene Verwendungen finden Sie auf den folgenden Seiten:
- Multimodale Prompts
- Text-Prompts
- Chat-Prompts
- Code-Chat-Aufforderungen
- Aufforderungen zur Codegenerierung
Weitere Informationen finden Sie unter Multimodale Einschränkungen
Programmiersprachen-SDKs
Die Vertex AI Gemini API bietet SDKs in den folgenden Sprachen:
Python
Das Python SDK ist im Paket vertexai
enthalten.
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])
Node.js
Mit dem Vertex AI SDK für Node.js können Sie die Gemini API in Vertex AI verwenden, um KI-gestützte Features und Anwendungen zu erstellen.
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
Die Vertex AI API für Java wird im Artefakt google-cloud-vertexai
bereitgestellt.
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
Go
Das Go SDK ist im Paket cloud.go888ogle.com.fqhub.com/go/vertexai
enthalten.
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Unterschiede zwischen der Gemini API in Vertex AI und der Gemini API in Google AI Studio
Über die Gemini API in Vertex AI und die Gemini API in Google AI Studio können Sie die Funktionen von Gemini-Modellen in Ihre Anwendungen einbinden. Welche Plattform für Sie am besten geeignet ist, hängt von Ihren Zielen ab.
Die Vertex AI Gemini API wurde für Entwickler und Unternehmen für die Verwendung in skalierten Bereitstellungen entwickelt. Sie bietet Features wie Unternehmenssicherheit, Datenstandort, Leistung und technischen Support. Wenn Sie bereits Google Cloud-Kunde sind oder mittelgroße bis große Anwendungen bereitstellen, sind Sie hier genau richtig.
Wenn Sie ein Hobbyist, ein Student oder ein Entwickler sind, der mit Google Cloud noch nicht vertraut ist, verwenden Sie die Google AI Gemini API. Diese eignet sich für Experimente, Prototyping und kleine Bereitstellungen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Web-Apps zu verwenden, finden Sie weitere Informationen in den Google AI SDKs für Android, Swift und Web.
Vertex AI Gemini API-Dokumentation
Wählen Sie eines der folgenden Themen aus, um mehr über die Vertex AI Gemini API zu erfahren.
Erste Schritte mit der Vertex AI Gemini API
-
In Google Cloud einrichten
Wenn Sie neu bei Google Cloud sind, folgen Sie den Einrichtungsschritten auf dieser Seite, um schnell loszulegen.
-
Übersicht über die Unterstützung generativer KI für Vertex AI
Informationen zu Workflows für generative AI, verfügbare Modelle und dazu, wie Sie Ihre Anwendung mit generativer KI erstellen.
-
Prompts für Gemini in Vertex AI Studio erstellen
Verwenden Sie Vertex AI Studio, um multimodale Prompts für Gemini zu entwerfen, zu testen und anzupassen.
Zur Vertex AI Gemini API migrieren
-
Von Azure OpenAI zu Vertex AI migrieren
Erfahren Sie, wie Sie Ihren Python-Code von Azure OpenAI zur Vertex AI Gemini API migrieren.
-
Von Google AI zu Vertex AI migrieren
Hier erfahren Sie, wie Sie Ihren Python-Code von der Google AI Gemini API zur Vertex AI Gemini API migrieren.
-
Von der PaLM API zur Gemini API migrieren
Erfahren Sie, wie Sie Ihren Python-Code von der Vertex AI PaLM API zur Vertex AI Gemini API migrieren.
Informationen zur Verwendung der wichtigsten Funktionen
-
Multimodale Prompt-Anfragen senden
Erfahren Sie, wie Sie multimodale Prompt-Anfragen mit der Cloud Console, Python SDK oder der REST API senden.
-
Anfragen für Chat-Prompts senden
Erfahren Sie, wie Sie Single-turn- und Multi-turn-Chat-Prompts mit der Cloud Console, dem Python SDK oder der REST API senden.
-
Funktionsaufrufe
Erfahren Sie, wie Sie das Modell abrufen, um JSON zum Aufrufen externer Funktionen auszugeben.