Préparer la source de données

Avant de pouvoir diffuser des caractéristiques en ligne à l'aide de Vertex AI Feature Store, vous devez configurer votre source de données de caractéristiques dans BigQuery comme suit:

  1. Créez une table ou une vue BigQuery à l'aide de vos données de caractéristiques. Pour charger des données de caractéristiques dans une table ou une vue BigQuery, vous pouvez créer un ensemble de données BigQuery à l'aide de ces données, créer une table BigQuery, puis charger les données de caractéristiques à partir de l'ensemble de données dans la table.

  2. Après avoir chargé les données de caractéristiques dans la table ou la vue BigQuery, vous devez rendre cette source de données disponible pour Vertex AI Feature Store pour la diffusion en ligne. Il existe deux manières de connecter la source de données à des ressources de diffusion en ligne, telles que les magasins en ligne et les instances de vue des caractéristiques:

    • Enregistrer la source de données en créant des groupes de caractéristiques et des caractéristiques:vous pouvez associer des groupes de caractéristiques et des caractéristiques à des instances de vue de caractéristiques dans votre magasin en ligne. Dans ce scénario, vous pouvez formater les données sous forme de série temporelle en incluant la colonne feature_timestamp. Feature Store Vertex AI ne diffuse que les dernières valeurs non nulles pour chaque ID d'entité unique, en fonction de l'horodatage de la caractéristique. Pour en savoir plus sur la création de groupes de caractéristiques, consultez la page Créer un groupe de caractéristiques. Pour en savoir plus sur la création de caractéristiques dans un groupe de caractéristiques, consultez la page Créer une caractéristique.

    • Diffuser directement les caractéristiques de la source de données sans créer de groupes de caractéristiques et de caractéristiques:vous pouvez spécifier l'URI de la source de données dans la vue des caractéristiques. Notez que dans ce scénario, vous ne pouvez pas mettre en forme vos données en tant que séries temporelles ni inclure de données historiques dans la source BigQuery. Chaque ligne doit contenir les dernières valeurs de caractéristiques correspondant à un ID unique. L'utilisation de plusieurs occurrences du même ID d'entité dans différentes lignes n'est pas acceptée.

Comme Vertex AI Feature Store vous permet de gérer les données de caractéristiques dans BigQuery et de les diffuser à partir de la source de données BigQuery, il n'est pas nécessaire d'importer ni de copier les caractéristiques dans un magasin hors connexion.

Consignes pour la préparation de la source de données

Suivez ces instructions pour comprendre le schéma et les contraintes lors de la préparation de la source de données dans BigQuery:

  1. La source de données doit contenir les colonnes suivantes:

    • Une colonne d'ID d'entité avec les valeurs string. La taille de chaque valeur dans cette colonne doit être inférieure à 4 Ko.

      • Si vous enregistrez la source de données en créant des groupes de caractéristiques, le nom de cette colonne doit être entity_id. Vous n'avez pas besoin de spécifier la colonne d'ID d'entité lors de l'association de groupes de caractéristiques pendant la création de la vue des caractéristiques.

      • Si vous souhaitez spécifier l'URI de la source de données pour créer la vue des caractéristiques, vous devez spécifier le nom de cette colonne lors de la création de la vue des caractéristiques. Dans ce cas, il n'est pas obligatoire de nommer cette colonne entity_id.

    • Si vous enregistrez la source de données à l'aide de groupes de caractéristiques et de caractéristiques, incluez la colonne feature_timestamp et mettez en forme les données en tant que séries temporelles. La colonne feature_timestamp contient des valeurs de type timestamp. Lors de la diffusion en ligne, Vertex AI Feature Store diffuse les dernières valeurs non nulles d'une caractéristique en fonction de cet horodatage.

    Si vous associez directement une source de données BigQuery à une vue de caractéristiques, la colonne feature_timestamp n'est pas obligatoire. Dans ce scénario, vous devez inclure uniquement les dernières valeurs de caractéristiques dans la source de données, et Vertex AI Feature Store ne recherche pas l'horodatage.

    • Si vous souhaitez activer la gestion des représentations vectorielles continues dans votre magasin en ligne, la source de données doit contenir les colonnes suivantes:

    • Une colonne embedding contenant des tableaux de type float.

    • Facultatif: une ou plusieurs colonnes de filtrage de type string ou tableau string.

    • Facultatif: Colonne de regroupement de type int.

  2. Chaque ligne de la source de données est un enregistrement complet des valeurs de caractéristiques associées à un ID d'entité. Si une valeur de caractéristique est manquante dans l'une des colonnes, elle est considérée comme une valeur nulle. Selon la façon dont vous définissez la vue des caractéristiques, Vertex AI Feature Store sélectionne les valeurs de caractéristiques de deux manières:

    • Si la vue des caractéristiques est définie en fonction des groupes de caractéristiques et des caractéristiques, Vertex AI Feature Store diffuse la dernière valeur de caractéristique non nulle à l'aide de l'horodatage de la caractéristique. Par exemple, si la valeur d'une caractéristique spécifique correspondant au dernier horodatage est nulle, Vertex AI Feature Store diffuse la valeur non nulle la plus récente à partir des valeurs historiques de la caractéristique.

    • Si la vue de caractéristiques est définie en spécifiant directement une source de données BigQuery, chaque ligne doit contenir un ID d'entité unique. Dans ce cas, Vertex AI Feature Store diffuse toutes les valeurs de caractéristiques à partir de la source de données associée.

  3. Chaque colonne de la table ou de la vue BigQuery représente une caractéristique. Indiquez les valeurs de chaque caractéristique dans une colonne distincte. Si vous associez la source de données à un groupe de caractéristiques et à des caractéristiques, associez chaque colonne à une caractéristique distincte.

  4. Les types de données compatibles pour les valeurs de caractéristiques incluent bool, int, float, string, timestamp, des tableaux de ces types de données et des octets. Notez que lors de la synchronisation des données, les valeurs de caractéristiques de type timestamp sont converties en int64.

  5. La source de données doit être située dans la même région que l'instance de magasin en ligne, ou dans un emplacement multirégional qui inclut ou chevauche la région du magasin en ligne. Par exemple, si le magasin en ligne se trouve dans us-central, la source BigQuery peut se trouver dans us-central ou US.

  6. Synchronisez les données dans une vue de caractéristiques avant la diffusion en ligne pour vous assurer que vous ne diffusez que les dernières valeurs des caractéristiques.

Étapes suivantes