Komponen Jupyter opsional Dataproc

Anda dapat menginstal komponen tambahan seperti Jupyter saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan komponen Jupyter.

Komponen Jupyter adalah notebook berbasis Web untuk analisis data interaktif dan mendukung UI Web JupyterLab. UI Web Jupyter tersedia di port 8123 pada node master pertama cluster.

Notebook Jupyter menyediakan kernel Python untuk menjalankan kode Spark, dan kernel PySpark. Secara default, notebook disimpan di Cloud Storage dalam bucket staging Dataproc, yang ditentukan oleh pengguna atau dibuat secara otomatis saat cluster dibuat. Lokasi dapat diubah pada waktu pembuatan cluster melalui properti cluster dataproc:jupyter.notebook.gcs.dir.

Instal Jupyter

Instal komponen saat Anda membuat cluster Dataproc. Komponen Jupyter memerlukan aktivasi Gateway Komponen Dataproc. Saat menggunakan image versi 1.5, penginstalan komponen Jupyter juga memerlukan penginstalan komponen Anaconda.

Konsol

  1. Aktifkan komponen.
    • Di Konsol Google Cloud, buka halaman Buat cluster Dataproc. Panel Siapkan cluster dipilih.
    • Di bagian Komponen:
      • Di bagian Komponen opsional, pilih komponen Jupyter, dan, jika menggunakan gambar versi 1.5, komponen Anaconda.
      • Pada Gateway Komponen, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Gateway Komponen).

gcloud CLI

Untuk membuat cluster Dataproc yang menyertakan komponen Jupyter, gunakan perintah cluster-name gcloud dataproc cluster create dengan flag --optional-components.

Contoh versi gambar default terbaru

Contoh berikut menginstal komponen Jupyter pada cluster yang menggunakan versi gambar default terbaru.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

Contoh versi image 1.5

Contoh versi image 1.5 berikut menginstal komponen Jupyter dan Anaconda (penginstalan komponen Anaconda diperlukan saat menggunakan image versi 1.5).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

REST API

Komponen Jupyter dapat diinstal melalui Dataproc API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create (penginstalan komponen Anaconda juga diperlukan saat menggunakan image versi 1.5).

Buka UI Jupyter dan JupyterLab

Klik link Gateway Komponen Google Cloud Console untuk membuka notebook Jupyter atau UI JupyterLab yang berjalan di node master cluster di browser lokal.

Pilih "GCS" atau "Local Disk" untuk membuat Notebook Jupyter baru di salah satu lokasi.

Memasang GPU ke Node Master dan/atau Pekerja

Anda dapat menambahkan GPU ke node master dan pekerja cluster saat menggunakan notebook Jupyter untuk:

  1. Lakukan prapemrosesan data di Spark, lalu kumpulkan DataFrame ke master dan jalankan TensorFlow
  2. Menggunakan Spark untuk mengorkestrasi TensorFlow berjalan secara paralel
  3. Jalankan Tensorflow-on-YARN
  4. Gunakan dengan skenario machine learning lain yang menggunakan GPU