Crea un'istanza abilitata per Dataproc
Questa pagina descrive come creare un'istanza di Vertex AI Workbench abilitata per Dataproc. Questa pagina descrive inoltre i vantaggi del plug-in JupyterLab di Dataproc e fornisce una panoramica su come utilizzare il plug-in con Dataproc Serverless per Spark e Dataproc su Compute Engine.
Panoramica del plug-in JupyterLab di Dataproc
Nelle istanze Vertex AI Workbench il plug-in JupyterLab di Dataproc è preinstallato a partire dalla versione M113
.
Il plug-in JupyterLab di Dataproc offre due modi per eseguire i job di blocchi note Apache Spark: cluster Dataproc e Spark serverless su Dataproc.
- I cluster Dataproc includono un set avanzato di funzionalità con controllo sull'infrastruttura su cui viene eseguito Spark. Puoi scegliere le dimensioni e la configurazione del cluster Spark, in modo da personalizzazione e controllo dell'ambiente. Questo approccio è ideale per carichi di lavoro complessi, job a lunga esecuzione e una gestione granulare delle risorse.
- Spark serverless basato su Dataproc elimina i problemi dell'infrastruttura. Tu invii i job Spark e Google gestisce il provisioning, la scalabilità e l'ottimizzazione delle risorse dietro le quinte. Questo approccio serverless offre un'opzione semplice ed economica per i carichi di lavoro di data science e ML.
Con entrambe le opzioni, puoi utilizzare Spark per l'elaborazione e l'analisi dei dati. La scelta tra i cluster Dataproc e Spark serverless dipende dai requisiti specifici dei carichi di lavoro, dal livello di controllo desiderato e dai pattern di utilizzo delle risorse.
I vantaggi dell'utilizzo di Spark serverless per i carichi di lavoro di data science e ML includono:
- Nessuna gestione del cluster: non devi preoccuparti del provisioning, della configurazione o della gestione dei cluster Spark. In questo modo, puoi risparmiare tempo e risorse.
- Scalabilità automatica: Spark serverless esegue automaticamente lo scale up e lo scale down in base al carico di lavoro, quindi paghi solo per le risorse che utilizzi.
- Prestazioni elevate: Spark serverless è ottimizzato per le prestazioni e sfrutta l'infrastruttura di Google Cloud.
- Integrazione con altre tecnologie Google Cloud: Spark serverless si integra con altri prodotti Google Cloud, come BigQuery e Dataplex.
Per ulteriori informazioni, consulta la documentazione di Dataproc Serverless.
Limitazioni
Considera le seguenti limitazioni quando pianifichi il tuo progetto:
- Il plug-in JupyterLab di Dataproc non supporta i Controlli di servizio VPC.
Limitazioni di Dataproc
Si applicano le seguenti limitazioni di Dataproc:
- I job Spark vengono eseguiti con l'identità dell'account di servizio, non con l'identità dell'utente che lo invia.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Abilita le API Cloud Resource Manager, Dataproc, and Notebooks.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Abilita le API Cloud Resource Manager, Dataproc, and Notebooks.
Ruoli obbligatori
Per assicurarti che l'account di servizio disponga delle autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc Serverless o un cluster Dataproc, chiedi all'amministratore di concedere all'account di servizio i seguenti ruoli IAM:
-
Worker Dataproc (
roles/dataproc.worker
) nel progetto -
Dataproc Editor (
roles/dataproc.editor
) sul cluster per l'autorizzazionedataproc.clusters.use
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc Serverless o un cluster Dataproc. Per visualizzare le autorizzazioni esatte necessarie, espandi la sezione Autorizzazioni richieste:
Autorizzazioni obbligatorie
Per eseguire un file di blocco note su un cluster Dataproc Serverless o un cluster Dataproc, sono necessarie le autorizzazioni seguenti:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
L'amministratore potrebbe anche essere in grado di concedere all'account di servizio queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Crea un'istanza con Dataproc abilitato
Per creare un'istanza di Vertex AI Workbench con Dataproc abilitato:
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic su
Crea nuovo.Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.
Nella sezione Dettagli della finestra di dialogo Crea istanza, assicurati che sia selezionata l'opzione Abilita Dataproc.
Assicurati che Tipo di Workbench sia impostato su Istanza.
Nella sezione Ambiente, assicurati di utilizzare la versione più recente o una versione con numero
M113
o successivo.Fai clic su Crea.
Vertex AI Workbench crea un'istanza e la avvia automaticamente. Quando l'istanza è pronta per l'uso, Vertex AI Workbench attiva un link Apri JupyterLab.
Apri JupyterLab
Accanto al nome dell'istanza, fai clic su Apri JupyterLab.
La scheda Avvio app di JupyterLab si apre nel browser. Per impostazione predefinita, contiene le sezioni per Blocchi note serverless Dataproc e Job e sessioni Dataproc. Se sono presenti cluster pronti per Jupyter nel progetto e nella regione selezionati, ci sarà una sezione denominata Blocchi note del cluster Dataproc.
Utilizza il plug-in con Dataproc Serverless per Spark
I modelli di runtime Spark serverless che si trovano nella stessa regione e nello stesso progetto dell'istanza di Vertex AI Workbench vengono visualizzati nella sezione Blocchi note serverless di Dataproc della scheda Avvio app di JupyterLab.
Per creare un modello di runtime, consulta Creare un modello di runtime serverless di Dataproc.
Per aprire un nuovo blocco note Spark serverless, fai clic su un modello di runtime. L'avvio del kernel Spark remoto richiede circa un minuto. Dopo l'avvio del kernel, puoi iniziare a programmare. Per eseguire il codice su Spark serverless, esegui una cella di codice nel blocco note.
Utilizzo del plug-in con Dataproc su Compute Engine
Se hai creato un cluster Dataproc su Compute Engine Jupyter, la scheda Avvio app include una sezione Blocchi note del cluster Dataproc.
Per ogni cluster Dataproc pronto per Jupyter a cui hai accesso nella regione e nel progetto sono visualizzate quattro schede.
Per cambiare la regione e il progetto:
Seleziona Impostazioni > Impostazioni Cloud Dataproc.
Nella scheda Configurazione di configurazione, in Informazioni sul progetto, modifica l'ID progetto e la regione, quindi fai clic su Salva.
Queste modifiche non avranno effetto finché non riavvii JupyterLab.
Per riavviare JupyterLab, seleziona File > Arresta, quindi fai clic su Apri JupyterLab nella pagina Istanze Vertex AI Workbench.
Per creare un nuovo blocco note, fai clic su una scheda. Dopo l'avvio del kernel remoto sul cluster Dataproc, puoi iniziare a scrivere il codice ed eseguirlo sul cluster.
Gestisci l'istanza di Dataproc on Vertex AI Workbench utilizzando gcloud CLI
Le istanze di Vertex AI Workbench vengono create
con Dataproc abilitato per impostazione predefinita. Puoi creare un'istanza di Vertex AI Workbench con
Dataproc disattivato impostando la chiave disable-mixer
metadata
su true
.
gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=true
Puoi abilitare Dataproc su un'istanza di Vertex AI Workbench arrestata aggiornando il valore dei metadati.
gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=false
Gestire Dataproc utilizzando Terraform
Le istanze Dataproc per Vertex AI Workbench su Terraform sono gestite tramite la chiave disable-mixer
nel campo dei metadati.
Attiva Dataproc impostando la chiave metadata
disable-mixer
su false
. Disattiva Dataproc impostando
la chiave dei metadati disable-mixer
su true
.
Per scoprire come applicare o rimuovere una configurazione Terraform, consulta Comandi Terraform di base.
Risolvere i problemi
Per diagnosticare e risolvere i problemi relativi alla creazione di un'istanza abilitata per Dataproc, consulta Risoluzione dei problemi di Vertex AI Workbench.
Passaggi successivi
Per ulteriori informazioni sul plug-in JupyterLab di Dataproc, consulta Utilizzare JupyterLab per sessioni serverless in batch e blocchi note interattive.
Per saperne di più su Serverless Spark, consulta la documentazione di Dataproc Serverless
Scopri come eseguire carichi di lavoro Spark serverless senza provisioning e gestione dei cluster.
Per scoprire di più sull'utilizzo di Spark con i prodotti e i servizi Google Cloud, consulta Spark su Google Cloud.
Sfoglia i modelli Dataproc disponibili su GitHub.
Scopri di più su Serverless Spark tramite
serverless-spark-workshop
su GitHub.Leggi la documentazione di Apache Spark.