Présentation de BigQuery DataFrames

BigQuery DataFrames est un ensemble de bibliothèques Python Open Source qui vous permettent de tirer parti du traitement des données BigQuery à l'aide d'API Python connues. BigQuery DataFrames met en œuvre les API pandas et scikit-learn en envoyant le traitement à BigQuery via la conversion SQL. Cela vous permet d'utiliser BigQuery pour explorer et traiter des téraoctets de données, mais aussi pour entraîner des modèles de machine learning (ML), le tout avec les API Python.

BigQuery DataFrames offre les avantages suivants :

  • Plus de 750 API pandas et scikit-learn mises en œuvre via une conversion SQL transparente vers les API BigQuery et BigQuery ML
  • Exécution différée des requêtes pour améliorer les performances
  • Extension des transformations de données à l'aide de fonctions Python définies par l'utilisateur pour permettre de traiter des données dans le cloud. Ces fonctions sont automatiquement déployées en tant que fonctions distantes BigQuery.
  • L'intégration à Vertex AI afin d'utiliser des modèles Gemini pour la génération de texte

Licences

BigQuery DataFrames est distribué avec la licence Apache-2.0. Il contient également du code dérivé des packages tiers suivants :

Pour en savoir plus, consultez le répertoire third_party/bigframes_vendored dans le dépôt GitHub de BigQuery DataFrames.

Quotas et limites

  • Les quotas BigQuery s'appliquent à BigQuery DataFrames, y compris aux composants matériels, logiciels et réseau.
  • Un sous-ensemble d'API pandas et scikit-learn est compatible. Pour en savoir plus, consultez la section API pandas compatibles.
  • Vous devez nettoyer explicitement toutes les fonctions Cloud Functions créées automatiquement dans le cadre du nettoyage de session. Pour en savoir plus, consultez la page API pandas compatibles.

Tarification

  • BigQuery DataFrames est un ensemble de bibliothèques Open Source Python disponibles en téléchargement sans frais supplémentaires.
  • BigQuery DataFrames utilise BigQuery, Cloud Functions, Vertex AI et d'autres services Google Cloud, qui entraînent leurs propres coûts.
  • Lors de l'utilisation régulière, BigQuery DataFrames stocke les données temporaires, telles que les résultats intermédiaires, dans des tables BigQuery. Ces tables sont conservées par défaut pendant sept jours et les données qui y sont stockées vous sont facturées. Les tables sont créées dans l'ensemble de données _anonymous_, au sein du projet que vous spécifiez dans l'option bf.options.bigquery.project.

Étapes suivantes