Anforderungen an Quelldaten

Für den Batch-Import kann Vertex AI Feature Store (Legacy) Daten aus Tabellen in BigQuery oder Dateien in Cloud Storage importieren.

  • Verwenden Sie die BigQuery-Tabelle, wenn Sie das gesamte Dataset aufnehmen müssen und keine Partitionsfilter benötigen.

  • Verwenden Sie die BigQuery-Ansicht, wenn Sie eine bestimmte Teilmenge des Datasets importieren müssen. Diese Option ist effizienter und ermöglicht es Ihnen, bestimmte Auswahlen aus dem gesamten Dataset zu importieren, einschließlich mehrerer aus den Daten generierten Tabellen.

  • In Cloud Storage aufgenommene Daten müssen im AVRO- oder CSV-Format sein.

Geben Sie für den Streamingimport die Featurewerte an, die in der API-Anfrage importiert werden sollen. Diese Quelldatenanforderungen gelten nicht. Weitere Informationen finden Sie in der API-Referenz zu writeFeatureValues.

Jedes Element (oder jede Zeile) muss folgende Anforderungen erfüllen:

  • Sie müssen eine Spalte für Entitäts-IDs haben und die Werte müssen vom Typ STRING sein. Diese Spalte enthält die Entitäts-IDs, für die die Featurewerte gelten.

  • Die Werttypen Ihrer Quelldaten müssen mit den Werttypen des Zielfeatures im Feature Store übereinstimmen. Boolesche Werte müssen beispielsweise in ein Feature vom Typ BOOL aufgenommen werden.

  • Alle Spalten müssen eine Überschrift vom Typ STRING haben. Es gibt keine Einschränkungen für den Namen der Überschriften.

    • Bei BigQuery-Tabellen und BigQuery-Ansichten ist der Spalten-Header der Spaltenname.
    • Für AVRO wird der Spalten-Header durch das AVRO-Schema definiert, das den Binärdaten zugeordnet ist.
    • Bei CSV-Dateien ist der Spalten-Header die erste Zeile.
  • Wenn Sie eine Spalte für Zeitstempel der Generierung von Features angeben, verwenden Sie eines der folgenden Zeitstempelformate:

    • Bei BigQuery-Tabellen und BigQuery-Ansichten müssen Zeitstempel in der TIMESTAMP-Spalte sein.
    • Bei Avro müssen Zeitstempel vom Typ „long“ und von logischem Typ „timestamp-micros“ sein.
    • Bei CSV-Dateien müssen Zeitstempel das RFC 3339-Format haben.
  • CSV-Dateien dürfen keine Arraydatentypen enthalten. Verwenden Sie stattdessen Avro oder BigQuery.

  • Bei Arraytypen können Sie keinen Nullwert in das Array einfügen. Sie können jedoch ein leeres Array einfügen.

Zeitstempel des Featurewerts

Für den Batch-Import erfordert Vertex AI Feature Store (Legacy) von Nutzern bereitgestellte Zeitstempel für die importierten Featurewerte. Sie können für jeden Wert einen bestimmten Zeitstempel oder für alle Werte denselben Zeitstempel angeben:

  • Wenn sich die Zeitstempel für Featurewerte unterscheiden, geben Sie die Zeitstempel in einer Spalte in Ihren Quelldaten an. Jede Zeile muss einen eigenen Zeitstempel haben, der angibt, wann der Featurewert generiert wurde. In der Aufnahmeanfrage geben Sie den Spaltennamen an, um die Zeitstempelspalte zu identifizieren.
  • Wenn der Zeitstempel für alle Featurewerte identisch ist, können Sie ihn in Ihrer Aufnahmeanfrage als Parameter angeben. Sie können den Zeitstempel auch in einer Spalte in Ihren Quelldaten angeben, wobei jede Zeile denselben Zeitstempel hat.

Region der Datenquelle

Wenn sich Ihre Quelldaten entweder in BigQuery oder Cloud Storage befinden, muss sich das Quell-Dataset oder der Quell-Bucket in derselben Region oder am selben multiregionalen Standort wie Ihr Feature Store befinden. Ein Feature Store in us-central1 kann beispielsweise nur Daten aus Cloud Storage-Buckets oder BigQuery-Datasets aufnehmen, die sich am Standort us-central1 oder am multiregionalen Standort "US" befinden. Sie können keine Daten von beispielsweise us-east1 importieren. Außerdem werden Quelldaten aus Dual-Region-Buckets nicht unterstützt.

Nächste Schritte