Testen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können. Tesen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können.

Best Practices mit Large Language Models (LLMs)

Multimodale Prompts

Informationen zu Best Practices für multimodale Prompts finden Sie unter Multimodale Best Practices.

Latenz reduzieren

Wenn Sie interaktive Anwendungen erstellen, spielt die Antwortzeit, auch als Latenz bezeichnet, für die Nutzerfreundlichkeit eine entscheidende Rolle. In diesem Abschnitt wird das Konzept der Latenz im Kontext von Vertex AI LLM APIs erläutert. Außerdem werden umsetzbare Strategien zur Minimierung der Latenz und zur Verbesserung der Antwortzeit Ihrer KI-gestützten Anwendungen bereitgestellt.

Informationen zu Latenzmesswerten für LLMs

Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um den Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren.

Berücksichtigen Sie bei der Untersuchung der Latenz mit einem Modell Folgendes:

Zeit bis zum ersten Token (TTFT) ist die Zeit, die das Modell benötigt, um das erste Token der Antwort nach Erhalt des Prompts zu erzeugen. TTFT ist insbesondere für Anwendungen relevant, die Streaming nutzen, bei denen sofortiges Feedback entscheidend ist.

Zeit bis zum letzten Token (TTLT) misst die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

Strategien zum Reduzieren der Latenz

Sie können mit Vertex AI mehrere Strategien verwenden, um die Latenz zu minimieren und die Reaktionsfähigkeit Ihrer Anwendungen zu verbessern:

Das richtige Modell für Ihren Anwendungsfall auswählen

Vertex AI bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das Ihren spezifischen Anforderungen am besten entspricht.

Gemini 1.5 Flash: Ein multimodales Modell, das für kostengünstige Anwendungen mit hohem Volumen entwickelt wurde. Gemini 1.5 Flash bietet Geschwindigkeit und Effizienz, um schnelle, kostengünstigere Anwendungen zu erstellen, die keine Kompromisse in Bezug auf die Qualität eingehen. Es unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen.
Gemini 1.5 Pro: Ein leistungsfähigeres multimodales Modell mit Unterstützung für einen größeren Kontext. Es unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen.
Gemini 1.0 Pro: Wenn Geschwindigkeit hohe Priorität hat und Ihre Prompts nur Text enthalten, sollten Sie dieses Modell verwenden. Dieses Modell bietet schnelle Antwortzeiten und liefert dennoch beeindruckende Ergebnisse.

Prüfen Sie Ihre Anforderungen an Geschwindigkeit und Ausgabequalität sorgfältig, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie unter Alle Modelle ansehen.

Prompt- und Ausgabelänge optimieren

Die Anzahl der Tokens in Ihrer Eingabeaufforderung und der erwarteten Ausgabe wirkt sich direkt auf die Verarbeitungszeit aus. Minimieren Sie die Tokenanzahl, um die Latenz zu verringern.

Verfassen Sie klare und prägnante Aufforderungen, die Ihre Absicht effektiv ohne unnötige Details oder Redundanz vermitteln. Bei kürzeren Aufforderungen benötigen Sie weniger Zeit für das erste Token.
Verwenden Sie die Systemanleitung, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token verkürzen.
Passen Sie temperature an. Experimentieren Sie mit dem Parameter temperature, um die Zufälligkeit der Ausgabe zu steuern. Niedrigere temperature-Werte können zu kürzeren, zielgerichteteren Antworten führen, während höhere Werte zu vielfältigeren, aber möglicherweise längeren Ausgaben führen. Weitere Informationen finden Sie unter Temperatur.
Schränken Sie die Ausgabe durch Festlegen eines Limits ein. Mit dem Parameter max_output_tokens können Sie eine maximale Länge der generierten Antwortlänge festlegen und so eine zu lange Ausgabe vermeiden. Seien Sie jedoch vorsichtig, da dadurch die Antworten während des Satzes abgeschnitten werden.

Streamantworten

Beim Streaming beginnt das Modell mit dem Senden seiner Antwort, bevor es die vollständige Ausgabe generiert. Dies ermöglicht die Echtzeitverarbeitung der Ausgabe und Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen.

Streaming verbessert die wahrgenommene Reaktionsfähigkeit und bietet eine interaktivere Nutzererfahrung. Weitere Informationen finden Sie unter Antworten von Modellen der generativen KI streamen.