Esecuzione di un'istanza di blocchi note gestiti su un cluster Dataproc

Questa pagina mostra come eseguire il file di blocco note di un'istanza di blocchi note gestiti su un cluster Dataproc.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API Notebooks and Dataproc.

    Abilita le API

  5. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API Notebooks and Dataproc.

    Abilita le API

  8. Se non l'hai ancora fatto, crea un'istanza di blocchi note gestiti.

Ruoli obbligatori

Per assicurarti che l'account di servizio disponga delle autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc Serverless, chiedi all'amministratore di concedere all'account di servizio i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc Serverless. Per visualizzare le autorizzazioni esatte necessarie, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per eseguire un file di blocco note su un cluster Dataproc Serverless sono necessarie le autorizzazioni seguenti:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

L'amministratore potrebbe anche essere in grado di concedere all'account di servizio queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Crea un cluster Dataproc

Per eseguire il file di blocco note di un'istanza di blocchi note gestiti in un cluster Dataproc, il cluster deve soddisfare i seguenti criteri:

  • Il gateway del componente del cluster deve essere abilitato.

  • Il cluster deve avere il componente Jupyter.

  • Il cluster deve trovarsi nella stessa regione dell'istanza di blocchi note gestiti.

Per creare il cluster Dataproc, inserisci il comando seguente in Cloud Shell o in un altro ambiente in cui è installata Google Cloud CLI.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Sostituisci quanto segue:

  • REGION: la località Google Cloud della tua istanza di blocchi note gestiti

  • CLUSTER_NAME: il nome del tuo nuovo cluster

Dopo qualche minuto, il cluster Dataproc è disponibile per l'uso. Scopri di più sulla creazione di cluster Dataproc.

Apri JupyterLab

  1. Se non l'hai ancora fatto, crea un'istanza di blocchi note gestiti nella stessa regione in cui si trova il cluster Dataproc.

  2. Nella console Google Cloud, vai alla pagina Blocchi note gestiti.

    Vai ai blocchi note gestiti

  3. Fai clic su Apri JupyterLab accanto al nome dell'istanza di blocchi note gestiti.

Esegui un file di blocco note nel cluster Dataproc

Puoi eseguire un file di blocco note nel tuo cluster Dataproc da qualsiasi istanza di blocchi note gestiti nello stesso progetto e nella stessa regione.

Esegui un nuovo file blocco note

  1. Nell'interfaccia JupyterLab della tua istanza di blocchi note gestiti, seleziona File > Nuovo > Blocco note.

  2. I kernel disponibili del cluster Dataproc vengono visualizzati nel menu Seleziona kernel. Seleziona il kernel che vuoi utilizzare, quindi fai clic su Seleziona.

    Si apre il nuovo file del blocco note.

  3. Aggiungi codice al nuovo file blocco note ed esegui il codice.

Per cambiare il kernel che vuoi utilizzare dopo aver creato il file del blocco note, consulta la sezione seguente.

Esegui un file di blocco note esistente

  1. Nell'interfaccia JupyterLab dell'istanza di blocchi note gestiti, fai clic sul pulsante  Browser file, passa al file del blocco note da eseguire e aprilo.

  2. Per aprire la finestra di dialogo Seleziona kernel, fai clic sul nome del kernel del file del blocco note, ad esempio Python (locale).

  3. Per selezionare un kernel dal cluster Dataproc, seleziona un nome kernel che alla fine includa il nome del cluster. Ad esempio, un kernel PySpark su un cluster Dataproc denominato mycluster è denominato PySpark on mycluster.

  4. Fai clic su Seleziona per chiudere la finestra di dialogo.

    Ora puoi eseguire il codice del file del blocco note sul cluster Dataproc.

Passaggi successivi