Einführung in BigQuery DataFrames
BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames implementiert die pandas und scikit-learn APIS, indem die Verarbeitung über SQL-Konvertierung nach BigQuery verschoben wird. Sie können BigQuery verwenden, um Terabyte an Daten zu untersuchen und zu verarbeiten sowie Modelle für maschinelles Lernen (ML) zu trainieren – alles mit Python APIs.
BigQuery DataFrames bietet folgende Vorteile:
- Mehr als 750 Pandas und scikit-learn APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML APIs implementiert wurden.
- Verzögerte Ausführung von Abfragen, um die Leistung zu verbessern.
- Datentransformationen mit benutzerdefinierten Python-Funktionen erweitern, damit Sie Daten in der Cloud verarbeiten können. Diese Funktionen werden automatisch als Remote-Funktionen von BigQuery bereitgestellt.
- Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.
Lizenzierung
BigQuery DataFrames wird mit der Apache-2.0-Lizenz bereitgestellt. Sie enthält auch Code, der von den folgenden Drittanbieterpaketen abgeleitet ist:
Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored
im GitHub-Repository von BigQuery DataFrames.
Kontingente und Limits
- BigQuery-Kontingente gelten für BigQuery DataFrames, einschließlich Hardware, Software und Netzwerkkomponenten.
- Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
- Sie müssen alle automatisch erstellten Cloud Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas-APIs.
Preise
- BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die ohne zusätzliche Kosten heruntergeladen werden können.
- BigQuery DataFrames verwendet BigQuery, Cloud Functions, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
- Während der regulären Verwendung speichert BigQuery DataFrames temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen. Diese Tabellen werden standardmäßig sieben Tage lang aufbewahrt, und Ihnen werden die darin gespeicherten Daten in Rechnung gestellt. Die Tabellen werden im Dataset
_anonymous_
in dem Projekt erstellt, das Sie in der Optionbf.options.bigquery.project
angeben.
Nächste Schritte
- BigQuery DataFrames verwenden
- BigQuery DataFrames-Kurzanleitung
- Referenz zur BigQuery DataFrames API
- BigQuery DataFrames-Beispiel-Notebooks
- BigQuery DataFrames-Quellcode (GitHub)