Membuat instance yang mendukung Dataproc

Halaman ini menjelaskan cara membuat instance Vertex AI Workbench yang mendukung Dataproc. Halaman ini juga menjelaskan manfaat plugin Dataproc JupyterLab dan memberikan ringkasan tentang cara menggunakan plugin dengan Dataproc Serverless untuk Spark dan Dataproc di Compute Engine.

Ringkasan plugin Dataproc JupyterLab

Instance Vertex AI Workbench memiliki plugin Dataproc JupyterLab yang sudah terinstal, mulai versi M113 dan yang lebih baru.

Plugin Dataproc JupyterLab menyediakan dua cara untuk menjalankan tugas notebook Apache Spark: cluster Dataproc dan Spark serverless di Dataproc.

Cluster Dataproc mencakup serangkaian fitur yang lengkap dengan kontrol atas infrastruktur yang digunakan Spark. Anda dapat memilih ukuran dan konfigurasi cluster Spark, yang memungkinkan penyesuaian dan kontrol atas lingkungan Anda. Pendekatan ini ideal untuk workload yang kompleks, tugas jangka panjang, dan pengelolaan resource yang terperinci.
Serverless Spark yang didukung oleh Dataproc menghilangkan masalah infrastruktur. Kirimkan tugas Spark Anda, dan Google akan menangani penyediaan, penskalaan, dan pengoptimalan resource di balik layar. Pendekatan serverless ini menawarkan opsi yang mudah dan hemat biaya untuk data science dan workload ML.

Dengan kedua opsi tersebut, Anda dapat menggunakan Spark untuk pemrosesan dan analisis data. Pilihan antara cluster Dataproc dan Serverless Spark bergantung pada persyaratan workload spesifik Anda, tingkat kontrol yang diinginkan, dan pola penggunaan resource.

Manfaat menggunakan Serverless Spark untuk data science dan workload ML mencakup:

Tanpa pengelolaan cluster: Anda tidak perlu memikirkan penyediaan, konfigurasi, atau pengelolaan cluster Spark. Tindakan ini akan menghemat waktu dan resource Anda.
Penskalaan otomatis: Serverless Spark secara otomatis meningkatkan dan menurunkan skala berdasarkan beban kerja, sehingga Anda hanya membayar untuk resource yang digunakan.
Performa tinggi: Serverless Spark dioptimalkan untuk performa dan memanfaatkan infrastruktur Google Cloud.
Integrasi dengan teknologi Google Cloud lainnya: Serverless Spark terintegrasi dengan produk Google Cloud lainnya, seperti BigQuery dan Dataplex.

Untuk mengetahui informasi selengkapnya, lihat dokumentasi Dataproc Serverless.

Batasan dan pertimbangan Dataproc

Tugas Spark dijalankan dengan identitas akun layanan, bukan identitas pengguna yang mengirim.

Sebelum memulai

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Enable the Cloud Resource Manager, Dataproc, and Notebooks APIs.

Enable the APIs

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Enable the Cloud Resource Manager, Dataproc, and Notebooks APIs.

Enable the APIs

Peran yang diperlukan

Untuk memastikan bahwa akun layanan memiliki izin yang diperlukan untuk menjalankan file notebook di cluster Dataproc Serverless atau cluster Dataproc, minta administrator Anda untuk memberikan peran IAM berikut ke akun layanan:

Dataproc Worker (roles/dataproc.worker) di project Anda
Dataproc Editor (roles/dataproc.editor) di cluster untuk izin dataproc.clusters.use

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk menjalankan file notebook di cluster Dataproc Serverless atau cluster Dataproc. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menjalankan file notebook di cluster Dataproc Serverless atau cluster Dataproc:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

Administrator mungkin juga dapat memberi akun layanan izin ini dengan peran khusus atau peran yang telah ditetapkan sebelumnya.

Buat instance dengan Dataproc diaktifkan

Untuk membuat instance Vertex AI Workbench dengan Dataproc yang aktif, lakukan hal berikut:

Di konsol Google Cloud, buka halaman Instance.

Buka Instance
Klik Buat baru.
Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Create instance, di bagian Details, pastikan Enable Dataproc dipilih.
Pastikan Workbench type disetel ke Instance.
Di bagian Environment, pastikan Anda menggunakan versi terbaru atau versi bernomor M113 atau yang lebih tinggi.
Klik Create.

Vertex AI Workbench membuat sebuah instance dan otomatis memulainya. Saat instance siap digunakan, Vertex AI Workbench akan mengaktifkan link Buka JupyterLab.

Membuka JupyterLab

Di samping nama instance, klik Open JupyterLab.

Tab Peluncur JupyterLab akan terbuka di browser Anda. Secara default, data ini berisi bagian untuk Dataproc Serverless Notebooks dan Tugas dan Sesi Dataproc. Jika ada cluster yang siap digunakan Jupyter di project dan region yang dipilih, akan ada bagian yang disebut Dataproc Cluster Notebooks.

Menggunakan plugin dengan Dataproc Serverless untuk Spark

Template runtime Serverless Spark yang berada di region dan project yang sama dengan instance Vertex AI Workbench Anda akan muncul di bagian Dataproc Serverless Notebooks pada tab Launcher JupyterLab.

Untuk membuat template runtime, lihat Membuat template runtime Dataproc Serverless.

Untuk membuka notebook Serverless Spark baru, klik template runtime. Perlu waktu sekitar satu menit untuk memulai kernel Spark jarak jauh. Setelah kernel dimulai, Anda dapat memulai coding. Untuk menjalankan kode di Serverless Spark, jalankan sel kode di notebook Anda.

Menggunakan plugin dengan Dataproc di Compute Engine

Jika Anda membuat Dataproc di cluster Jupyter Compute Engine, tab Peluncur memiliki bagian Dataproc Cluster Notebooks.

Empat kartu muncul untuk setiap cluster Dataproc yang siap dengan Jupyter yang dapat Anda akses di region dan project tersebut.

Untuk mengubah region dan project, lakukan hal berikut:

Pilih Setelan > Setelan Cloud Dataproc.
Di tab Setup Config, di bagian Project Info, ubah Project ID dan Region, lalu klik Save.

Perubahan ini tidak berlaku hingga Anda memulai ulang JupyterLab.
Untuk memulai ulang JupyterLab, pilih File > Shut Down, lalu klik Open JupyterLab di halaman Vertex AI Workbench instances.

Untuk membuat buku catatan baru, klik kartu. Setelah kernel jarak jauh di cluster Dataproc dimulai, Anda dapat mulai menulis kode, lalu menjalankannya di cluster Anda.

Mengelola Dataproc di instance Vertex AI Workbench menggunakan gcloud CLI

Instance Vertex AI Workbench dibuat dengan Dataproc yang diaktifkan secara default. Anda dapat membuat instance Vertex AI Workbench dengan Dataproc yang dinonaktifkan dengan menetapkan kunci disable-mixer metadata ke true.

gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=true

Dataproc dapat diaktifkan pada instance Vertex AI Workbench yang dihentikan dengan memperbarui nilai metadata.

gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=false

Mengelola Dataproc menggunakan Terraform

Dataproc untuk instance Vertex AI Workbench di Terraform dikelola menggunakan kunci disable-mixer di kolom metadata. Aktifkan Dataproc dengan menetapkan kunci disable-mixer metadata ke false. Nonaktifkan Dataproc dengan menetapkan kunci metadata disable-mixer ke true.

Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.

resource "google_workbench_instance" "default" {
  name     = "workbench-instance-example"
  location = "us-central1-a"

  gce_setup {
    machine_type = "n1-standard-1"
    vm_image {
      project = "deeplearning-platform-release"
      family  = "tf-latest-gpu"
    }
    metadata = {
      disable-mixer = "false"
    }
  }
}

Langkah selanjutnya

Untuk informasi selengkapnya tentang plugin Dataproc JupyterLab, lihat Menggunakan JupyterLab untuk sesi notebook interaktif dan batch serverless.
Untuk mempelajari Serverless Spark lebih lanjut, lihat dokumentasi Dataproc Serverless
Pelajari cara menjalankan workload Serverless Spark tanpa menyediakan dan mengelola cluster.
Untuk mempelajari lebih lanjut cara menggunakan Spark dengan produk dan layanan Google Cloud, lihat Spark di Google Cloud.
Jelajahi template Dataproc di GitHub yang tersedia.
Pelajari Serverless Spark melalui serverless-spark-workshop di GitHub.
Baca dokumentasi Apache Spark.