Datenquelle vorbereiten

Bevor Sie Onlinefunktionen mit Vertex AI Feature Store bereitstellen können, müssen Sie die Featuredatenquelle in BigQuery einrichten:

  1. Erstellen Sie eine BigQuery-Tabelle oder -Ansicht mithilfe Ihrer Feature-Daten. Wenn Sie Featuredaten in eine BigQuery-Tabelle oder -Ansicht laden möchten, können Sie ein BigQuery-Dataset mit den Daten erstellen, eine BigQuery-Tabelle erstellen und dann die Featuredaten aus dem Dataset in die Tabelle laden.

  2. Nachdem Sie die Featuredaten in die BigQuery-Tabelle oder -Ansicht geladen haben, müssen Sie diese Datenquelle Vertex AI Feature Store für die Onlinebereitstellung zur Verfügung stellen. Es gibt zwei Möglichkeiten, die Datenquelle mit Onlinebereitstellungsressourcen zu verbinden, z. B. Onlinespeicher und Featureansicht-Instanzen:

    • Registrieren Sie die Datenquelle durch Erstellen von Feature-Gruppen und Features: Sie können Feature-Gruppen und Features mit Featureansicht-Instanzen in Ihrem Onlinespeicher verknüpfen. In diesem Szenario können Sie Ihre Daten als Zeitachse formatieren, indem Sie die Spalte feature_timestamp hinzufügen. Vertex AI Feature Store stellt anhand des Featurezeitstempels nur die neuesten Nicht-Null-Werte für jede eindeutige Entitäts-ID bereit. Informationen zum Erstellen von Feature-Gruppen finden Sie unter Feature-Gruppe erstellen. Informationen zum Erstellen von Features in einer Featuregruppe finden Sie unter Feature erstellen.

    • Features direkt aus der Datenquelle bereitstellen, ohne Feature-Gruppen und Features zu erstellen: Sie können den URI der Datenquelle in der Feature-Ansicht angeben. Beachten Sie, dass Sie in diesem Szenario Ihre Daten nicht als Zeitachsen formatieren oder Verlaufsdaten in die BigQuery-Quelle aufnehmen können. Jede Zeile muss die neuesten Featurewerte enthalten, die einer eindeutigen ID entsprechen. Mehrere Vorkommen derselben Entitäts-ID in verschiedenen Zeilen werden nicht unterstützt.

Da Sie mit Vertex AI Feature Store Feature-Daten in BigQuery verwalten und Features aus der BigQuery-Datenquelle bereitstellen können, müssen Sie die Features nicht importieren oder in einen Offline-Speicher kopieren.

Richtlinien zur Vorbereitung von Datenquellen

Befolgen Sie diese Richtlinien, um das Schema und die Einschränkungen beim Vorbereiten der Datenquelle in BigQuery zu verstehen:

  1. Die Datenquelle muss die folgenden Spalten enthalten:

    • Eine Entitäts-ID-Spalte mit string-Werten. Die Größe jedes Werts in dieser Spalte muss kleiner als 4 KB sein.

      • Wenn Sie die Datenquelle durch Erstellen von Featuregruppen registrieren, muss der Name dieser Spalte entity_id sein. Sie müssen die Entitäts-ID-Spalte nicht angeben, während Sie Featuregruppen bei der Erstellung der Featureansicht verknüpfen.

      • Wenn Sie den Datenquellen-URI zum Erstellen der Featureansicht angeben möchten, müssen Sie den Namen dieser Spalte beim Erstellen der Featureansicht angeben. In diesem Fall ist es nicht obligatorisch, diese Spalte als entity_id zu benennen.

    • Wenn Sie die Datenquelle mithilfe von Featuregruppen und -Features registrieren, fügen Sie die Spalte feature_timestamp ein und formatieren Sie die Daten als Zeitachse. Die Spalte feature_timestamp enthält Werte vom Typ timestamp. Während der Onlinebereitstellung stellt Vertex AI Feature Store die neuesten Nicht-Null-Werte eines Features anhand dieses Zeitstempels bereit.

    Wenn Sie eine BigQuery-Datenquelle direkt mit einer Featureansicht verknüpfen, ist die Spalte feature_timestamp nicht erforderlich. In diesem Szenario müssen Sie nur die neuesten Featurewerte in die Datenquelle aufnehmen und Vertex AI Feature Store sucht nicht den Zeitstempel.

    • Wenn Sie die Einbettungsverwaltung in Ihrem Onlinespeicher aktivieren möchten, muss die Datenquelle die folgenden Spalten enthalten:

    • Spalte embedding, die Arrays vom Typ float enthält.

    • Optional: Eine oder mehrere Filterspalten vom Typ string oder Array string.

    • Optional: Eine Begrenzungsrahmen über Spalten des Typs int.

  2. Jede Zeile in der Datenquelle ist ein vollständiger Datensatz der Featurewerte, die einer Entitäts-ID zugeordnet sind. Wenn in einer der Spalten ein Featurewert fehlt, wird dieser als Nullwert betrachtet. Je nachdem, wie Sie die Featureansicht definieren, gibt es zwei Möglichkeiten, wie Vertex AI Feature Store die Featurewerte auswählt, die bereitgestellt werden:

    • Wenn die Featureansicht basierend auf Featuregruppen und Features definiert ist, stellt Vertex AI Feature Store den neuesten Nicht-Null-Featurewert mithilfe des Feature-Zeitstempels bereit. Wenn beispielsweise der Wert eines bestimmten Features, das dem neuesten Zeitstempel entspricht, null ist, stellt Vertex AI Feature Store den neuesten Nicht-Nullwert aus den historischen Werten des Features bereit.

    • Wenn die Featureansicht durch direkte Angabe einer BigQuery-Datenquelle definiert wird, muss jede Zeile eine eindeutige Entitäts-ID enthalten. In diesem Fall stellt Vertex AI Feature Store alle Featurewerte aus der zugehörigen Datenquelle bereit.

  3. Jede Spalte der BigQuery-Tabelle oder -Ansicht stellt ein Feature dar. Geben Sie die Werte für jedes Feature in einer separaten Spalte an. Wenn Sie die Datenquelle mit einer Featuregruppe und Features verknüpfen, verknüpfen Sie jede Spalte mit einem separaten Feature.

  4. Unterstützte Datentypen für Featurewerte sind bool, int, float, string, timestamp, Arrays dieser Datentypen und Bytes. Beachten Sie, dass Featurewerte vom Typ timestamp während der Datensynchronisierung in int64 konvertiert werden.

  5. Die Datenquelle muss sich in derselben Region wie die Online-Instanz oder in einer Multi-Region befinden, die die Region für den Onlinespeicher enthält oder sich damit überschneidet. Wenn sich der Onlinespeicher beispielsweise in us-central befindet, kann sich die BigQuery-Quelle in us-central oder US befinden.

  6. Synchronisieren Sie die Daten in einer Featureansicht vor der Onlinebereitstellung, damit nur die neuesten Featurewerte bereitgestellt werden.

Nächste Schritte