Trainingsdaten vorbereiten

Auf dieser Seite wird beschrieben, wie Sie Ihre tabellarischen Trainingsdaten für Prognosemodelle vorbereiten.

Dabei werden die folgenden Themen behandelt:

  1. Anforderungen an die Datenstruktur
  2. Importquelle vorbereiten
  3. Trainingsdaten gewichten

Standardmäßig verwendet Vertex AI einen chronologischen Aufteilungsalgorithmus, um Ihre Prognosedaten in die drei Datenaufteilungen zu unterteilen. Alternativ können Sie auch eine manuelle Aufteilung verwenden. Dazu müssen Sie jedoch eine Spalte für die Datenaufteilung vorbereiten. Weitere Informationen zur Datenaufteilung.

Anforderungen an die Datenstruktur

Für Vorhersagemodelle müssen Ihre Trainingsdaten die folgenden grundlegenden Anforderungen erfüllen:

Anforderungstyp Anforderung
Größe Das Dataset darf maximal 100 GB groß sein.
# an Spalten Das Dataset muss mindestens 3 und darf nicht mehr als 100 Spalten haben. Jede Beobachtung im Dataset muss ein Ziel und eine Zeit haben, die beide als Merkmale fungieren. Außerdem muss jede Beobachtung eine Zeitachsen-ID haben, die die Zeitachsen identifiziert, zu denen die Beobachtung gehört. Idealerweise haben Trainingsdaten mehr als drei Spalten. Die maximale Anzahl von Spalten umfasst sowohl Feature- als auch Nicht-Feature-Spalten.
Zielspalte Sie müssen eine Zielspalte angeben. In der Zielspalte kann Vertex AI die Trainingsdaten mit dem gewünschten Ergebnis verknüpfen. Es darf keine Nullwerte enthalten und muss numerisch sein.
Zeitspalte Sie müssen eine Zeitspalte angeben, die für jede Zeile einen Wert enthält. Die Zeitspalte gibt den Zeitpunkt an, zu dem eine bestimmte Beobachtung erfolgt ist.
Zeitreihenkennzeichnungs-Spalte Sie müssen eine Spalte für die Zeitachsenkennzeichnung angeben. Diese muss für jede Zeile einen Wert enthalten. Die Prognose von Trainingsdaten enthält normalerweise mehrere Zeitachsen. Die Kennzeichnung teilt Vertex AI mit, zu welcher Zeitachse eine bestimmte Beobachtung in den Trainingsdaten gehört. Alle Zeilen in einer bestimmten Zeitachse haben denselben Wert in der Zeitachsenkennzeichnungsspalte. Einige gängige Zeitachsenkennzeichnungen können die Produkt-ID, eine Geschäfts-ID oder eine Region sein. Es ist möglich, ein Prognosemodell für eine einzelne Zeitachse mit einem identischen Wert für alle Zeilen in der Zeitachsenkennzeichnungsspalte zu trainieren. Vertex AI eignet sich jedoch besser für Trainingsdaten, die zwei oder mehr Zeitachsen enthalten. Die besten Ergebnisse erzielen Sie, wenn Sie für jede Spalte, die Sie zum Trainieren des Modells verwenden, mindestens 10 Zeitachsen verwenden.
Format der Spaltennamen Der Spaltenname kann ein beliebiges alphanumerisches Zeichen oder einen Unterstrich (_) enthalten. Der Spaltenname darf nicht mit einem Unterstrich beginnen.
# an Zeilen Das Dataset muss mindestens 1.000 und darf nicht mehr als 100.000.000 Zeilen enthalten. Zum Trainieren eines leistungsfähigen Modells reichen jedoch – je nach Anzahl der Features im Dataset – 1.000 Zeilen möglicherweise nicht aus. Weitere Informationen
Datenformat Verwenden Sie das schmale Datenformat (manchmal auch als lang bezeichnet). Im schmalen Format stellt jede Zeile das Element dar, das durch die Zeitachsenkennung für eine bestimmte Zeit zusammen mit allen Daten für dieses Element zu dieser Zeit angegeben wird. Weitere Informationen zum Auswählen des Datenformats
Intervall zwischen Zeilen Das Intervall zwischen den Trainingszeilen muss einheitlich sein. Dies ist Ihre Datengranularität. Sie wirkt sich darauf aus, wie das Modell trainiert wird und hat Einfluss auf die Häufigkeit der Vorhersageergebnisse. Weitere Informationen zur Datengranularität
Zeitreihenlänge Die Länge einer Zeitachse darf 3.000 Zeitschritte nicht überschreiten.

Importquelle vorbereiten

Sie können Modelltrainingsdaten auf zwei Arten für Vertex AI bereitstellen:

  • BigQuery-Tabellen
  • Kommagetrennte Werte (CSV)

Welche Quelle Sie verwenden, hängt davon ab, wie die Daten gespeichert und wie umfangreich und komplex sie sind. Wenn das Dataset klein ist und Sie keine komplexeren Datentypen benötigen, kann CSV die einfachere Lösung sein. Für größere Datasets, die Arrays und Strukturen enthalten, ist BigQuery erforderlich.

BigQuery

Die BigQuery-Tabelle oder -Ansicht muss den BigQuery-Standortanforderungen entsprechen.

Wenn sich die BigQuery-Tabelle oder -Ansicht in einem anderen Projekt befindet als dem Projekt, in dem Sie Ihr Vertex AI-Dataset erstellen, oder wenn Ihre BigQuery-Tabelle oder -Ansicht von einer externen Datenquelle gesichert wird, müssen Sie dem Vertex AI-Dienst-Agent möglicherweise eine oder mehrere Rollen hinzufügen. Siehe Voraussetzungen für das Hinzufügen von Rollen für BigQuery.

Sie brauchen für die BigQuery-Tabelle kein Schema anzugeben. Vertex AI leitet das Schema für Ihre Tabelle automatisch ab, wenn Sie Ihre Daten importieren.

Ihr BigQuery-URI mit dem Speicherort Ihrer Trainingsdaten muss dem folgenden Format entsprechen:

bq://<project_id>.<dataset_id>.<table_id>

Der URI darf keine weiteren Sonderzeichen enthalten.

Informationen zu BigQuery-Datentypen und deren Zuordnung zu Vertex AI finden Sie unter BigQuery-Tabellen. Weitere Informationen zur Verwendung externer BigQuery-Datenquellen finden Sie unter Einführung in externe Datenquellen.

CSV

CSV-Dateien können in Cloud Storage oder auf Ihrem lokalen Computer gespeichert sein. Sie müssen den folgenden Anforderungen entsprechen:

  • Die erste Zeile der ersten Datei muss ein Header sein, der die Namen der Spalten enthält. Wenn die erste Zeile einer nachfolgenden Datei mit dem Header identisch ist, wird sie auch als Header behandelt. Andernfalls wird sie als Daten behandelt.
  • Spaltennamen können beliebige alphanumerische Zeichen und Unterstriche (_) enthalten. Der Spaltenname darf nicht mit einem Unterstrich beginnen.
  • Jede Datei darf maximal 10 GB groß sein.

    Sie können mehrere Dateien mit einer Gesamtgröße von maximal 100 GB importieren.

  • Das Trennzeichen muss ein Komma (,) sein.

Sie brauchen für die CSV-Daten kein Schema anzugeben. Das Tabellenschema wird von Vertex AI automatisch beim Import der Daten abgeleitet. Die Kopfzeile wird dabei für die Spaltennamen verwendet.

Weitere Informationen zum CSV-Dateiformat und zu den Datentypen finden Sie unter CSV-Dateien.

Wenn Sie Ihre Daten aus Cloud Storage importieren, müssen sie sich in einem Bucket befinden, der die folgenden Anforderungen erfüllt:

Wenn Sie Ihre Daten von Ihrem lokalen Computer importieren, benötigen Sie einen Cloud Storage-Bucket, der die folgenden Anforderungen erfüllt:

Trainingsdaten gewichten

Standardmäßig gewichtet Vertex AI jede Zeile Ihrer Trainingsdaten gleich. Für Trainingszwecke wird keine Zeile als wichtiger betrachtet als eine andere.

Mitunter kann es für das Training jedoch wünschenswert sein, dass einige Zeilen wichtiger sind. Wenn Sie beispielsweise Ausgabendaten verwenden, möchten Sie vielleicht, dass die Daten zu kaufkräftigeren Kunden eine größere Auswirkung auf das Modell haben. Wenn es wichtig ist, dass ein bestimmtes Ergebnis in jedem Fall einbezogen wird, können Sie Zeilen mit diesem Ergebnis stärker gewichten.

Wenn Sie die Gewichtungsspalte in das Dataset einbeziehen, können Sie Zeilen ein relatives Gewicht zuweisen. Die Gewichtungsspalte muss eine numerische Spalte sein. Der Wert für die Gewichtung kann zwischen 0 und 10.000 liegen. Höhere Werte deuten darauf hin, dass die Zeile beim Training des Modells wichtiger ist. Bei einer Gewichtung von 0 wird die Zeile ignoriert. Wenn Sie eine Gewichtungsspalte einbeziehen, muss sie einen Wert für jede Zeile enthalten.

Wenn Sie das Modell später trainieren, geben Sie diese Spalte als Weight-Spalte an.

Benutzerdefinierte Gewichtungsschemas werden nur zum Trainieren des Modells verwendet. Sie haben keinen Einfluss auf das für die Modellbewertung verwendete Test-Dataset.

Nächste Schritte