Übersicht über die Gemini API in Vertex AI



Multimodale Modelle für Gemini

Ein multimodales Modell ist ein Modell, das Informationen aus mehreren Modalitäten verarbeiten kann, einschließlich Bildern, Videos und Text. Sie können dem Modell zum Beispiel ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.

Gemini-Modelle

Die folgenden Gemini-Modelle sind verfügbar:

  • Gemini 1.5 Flash: Das schnellste und kostengünstigste multimodale Gemini-Modell. Er wurde für kostengünstigere Aufgaben mit hohem Volumen und latenzempfindliche Anwendungen entwickelt. Da Gemini 1.5 Flash responsiver ist als andere Modelle, die mehr kosten, ist es eine gute Option zum Erstellen von Chatassistenten und On-Demand-Anwendungen zur Inhaltsgenerierung.
  • Gemini 1.5 Pro: (Kann multimodal sein (Text, Bilder, Audio, PDFs, Code, Videos) und in großem Maßstab skaliert werden für Aufgabenbereich mit bis zu 1 Mio. Eingabetokens.
  • Gemini 1.0 Pro wurde für Natural Language-Aufgaben, Text- und Code-Chats in mehreren Schritten und die Codegenerierung entwickelt.
  • Gemini 1.0 Pro Vision: Unterstützt multimodale Prompts. Sie können Text, Bilder und Videos in Ihre Anfragen aufnehmen und Text- oder Codeantworten abrufen.

Anwendungsfälle für Gemini 1.5 Pro und Gemini 1.5 Flash

Gemini 1.5 Pro und Gemini 1.5 Flash unterstützen die Textgenerierung über einen Prompt, der eine oder eine Kombination der folgenden Modalitäten in einem Prompt enthält: Text, Code, PDFs, Bilder, Audio, Video. Ihre Anwendungsfälle umfassen unter anderem Folgendes:

Anwendungsfall Beschreibung
Zusammenfassung Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt.
Suche nach visuellen Informationen Nutzen Sie externes Wissen in Kombination mit Informationen, die aus dem Eingabebild oder -video extrahiert wurden, um Fragen zu beantworten.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung von Objekten in Bildern und Videos.
Verständnis digitaler Inhalte Beantworten Sie Fragen und extrahieren Sie Informationen aus visuellen Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten.
Generierung strukturierter Inhalte Generieren Sie Antworten anhand multimodaler Eingaben in Formaten wie HTML und JSON.
Untertitel und Beschreibung Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen.
Videos im Langformat Sie können lange Inhalte mit bis zu 1 Million Tokens für Text, Code, Bilder, Video und Audio verarbeiten.
Logisches Denken Neue Informationen durch Zusammensetzung ohne Speicherung oder Abruf ableiten
Audio Sprachdateien für Zusammenfassungen, Sprache-zu-Text-Funktionen und Fragen und Antworten analysieren.
Audio- und Videoeinstellungen. Fasst eine Videodatei mit Audio zusammen und gibt Kapitel mit Zeitstempeln zurück.
Multimodale Verarbeitung Verarbeitet mehrere Arten von Eingabemedien gleichzeitig, z. B. Video- und Audioeingabe.

Anwendungsfälle für Gemini 1.0 Pro

Gemini 1.0 Pro unterstützt die Text- und Codegenerierung über einen Text-Prompt. Zu den Anwendungsfällen gehören unter anderem:

Anwendungsfall Beschreibung
Zusammenfassung Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt.
Question Answering Geben Sie Antworten auf Fragen im Text ein. Beispielsweise können Sie das Erstellen eines Dokuments mit häufig gestellten Fragen (FAQ) aus dem Inhalt der Wissensdatenbank automatisieren.
Verständnis digitaler Inhalte Weisen Sie dem bereitgestellten Text ein Label zu. Ein Label könnte beispielsweise auf Text angewendet werden und beschreiben, wie grammatikalisch korrekt er ist.
Klassifikation Weisen Sie ein Label zu, das den bereitgestellten Text beschreibt. Sie können beispielsweise Labels anwenden, die beschreiben, ob ein Textblock grammatikalisch korrekt ist.
Informationssuche Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos.
Sentimentanalyse Dies ist eine Form der Klassifizierung, die die Stimmung des Texts identifiziert. Die Stimmung wird in ein Label umgewandelt, das auf den Text angewendet wird. Die Stimmung eines Textes kann z. B. positiv oder negativ sein, oder Gefühle wie Ärger oder Freude zeigen.
Entitätsextraktion Erzeugen Sie Texte, indem Sie eine Reihe von Anforderungen und Hintergrundinformationen angeben. Sie können beispielsweise eine E-Mail in einem bestimmten Kontext erstellen und dabei einen bestimmten Ton verwenden.
Codegenerierung Code anhand einer Beschreibung generieren. Beispielsweise können Sie das Modell anweisen, eine Funktion zu schreiben, die prüft, ob ein Jahr ein Schaltjahr ist.

Anwendungsfälle für Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision unterstützt die Textgenerierung mit Text, Bildern und Videos als Eingabe. Zu den Anwendungsfällen gehören unter anderem:

Anwendungsfall Beschreibung
Informationssuche Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos.
Verständnis digitaler Inhalte Beantworten Sie Fragen, indem Sie Informationen aus Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten extrahieren.
Generierung strukturierter Inhalte Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung.
Untertitel/Beschreibung Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen.
Extrapolation Überlegen, was in einem Bild nicht zu sehen ist oder was vor oder nach einem Video passiert.
Objekterkennung in Fotos Erkennen Sie ein Objekt in einem Bild und geben Sie eine Textbeschreibung des Objekts zurück.
Informationen zu Artikeln in einem Bild zurückgeben Verwenden Sie ein Bild, das mehrere Lebensmittel enthält. Gemini 1.0 Pro Vision kann Ihnen eine Schätzung des Betrags liefern, den Sie dafür zahlen sollten.
Bildschirme und Oberflächen verstehen Extrahieren Sie Informationen aus Appliance-Bildschirmen, Benutzeroberflächen und Layouts. Sie können beispielsweise ein Bild einer Appliance mit Gemini 1.0 Pro Vision verwenden, um eine Anleitung zur Verwendung der Appliance zu erhalten.
Technische Diagramme verstehen ER-Diagramme entschlüsseln, Beziehungen zwischen Tabellen verstehen und Anforderungen für die Optimierung in einer bestimmten Umgebung wie BigQuery ermitteln.
Empfehlung auf Basis mehrerer Bilder erstellen Anhand von Bildern von Brillen können Sie eine Empfehlung dazu erhalten, welches der Modelle am besten zu Ihrem Gesicht passt.
Videobeschreibung generieren Erkennen, was in einem Video gezeigt wird. Beispiel: Ein Video für ein Ferienziel zur Verfügung stellen, um eine Beschreibung des Reiseziels, die fünf wichtigsten Aktivitäten dort und Vorschläge für die Reise zu erhalten.

Weitere Informationen zum Entwerfen von Prompts für verschiedene Verwendungen finden Sie auf den folgenden Seiten:

Weitere Informationen finden Sie unter Multimodale Einschränkungen

Programmiersprachen-SDKs

Die Vertex AI Gemini API bietet SDKs in den folgenden Sprachen:

Python

Das Python SDK ist im Paket vertexai enthalten.

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])

Node.js

Mit dem Vertex AI SDK für Node.js können Sie die Gemini API in Vertex AI verwenden, um KI-gestützte Features und Anwendungen zu erstellen.

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

Die Vertex AI API für Java wird im Artefakt google-cloud-vertexai bereitgestellt.

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
  }
}

Go

Das Go SDK ist im Paket cloud.go888ogle.com.fqhub.com/go/vertexai enthalten.

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Unterschiede zwischen der Gemini API in Vertex AI und der Gemini API in Google AI Studio

Über die Gemini API in Vertex AI und die Gemini API in Google AI Studio können Sie die Funktionen von Gemini-Modellen in Ihre Anwendungen einbinden. Welche Plattform für Sie am besten geeignet ist, hängt von Ihren Zielen ab.

Die Vertex AI Gemini API wurde für Entwickler und Unternehmen für die Verwendung in skalierten Bereitstellungen entwickelt. Sie bietet Features wie Unternehmenssicherheit, Datenstandort, Leistung und technischen Support. Wenn Sie bereits Google Cloud-Kunde sind oder mittelgroße bis große Anwendungen bereitstellen, sind Sie hier genau richtig.

Wenn Sie ein Hobbyist, ein Student oder ein Entwickler sind, der mit Google Cloud noch nicht vertraut ist, verwenden Sie die Google AI Gemini API. Diese eignet sich für Experimente, Prototyping und kleine Bereitstellungen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Web-Apps zu verwenden, finden Sie weitere Informationen in den Google AI SDKs für Android, Swift und Web.

Vertex AI Gemini API-Dokumentation

Wählen Sie eines der folgenden Themen aus, um mehr über die Vertex AI Gemini API zu erfahren.

Erste Schritte mit der Vertex AI Gemini API


Zur Vertex AI Gemini API migrieren


Informationen zur Verwendung der wichtigsten Funktionen

  • Miniaturansicht für multimodale Eingabeaufforderungen senden
    Multimodale Prompt-Anfragen senden

    Erfahren Sie, wie Sie multimodale Prompt-Anfragen mit der Cloud Console, Python SDK oder der REST API senden.

  • Miniaturansicht für Chat-Prompts senden
    Anfragen für Chat-Prompts senden

    Erfahren Sie, wie Sie Single-turn- und Multi-turn-Chat-Prompts mit der Cloud Console, dem Python SDK oder der REST API senden.

  • Miniaturansicht für Funktionsaufrufe
    Funktionsaufrufe

    Erfahren Sie, wie Sie das Modell abrufen, um JSON zum Aufrufen externer Funktionen auszugeben.