Glosarium Vertex AI

  • kumpulan anotasi
    • Kumpulan anotasi berisi label yang berkaitan dengan file sumber yang diupload dalam sebuah set data. Kumpulan anotasi berkaitan dengan jenis data dan tujuan (misalnya, video/klasifikasi)
  • Endpoint API
    • Endpoint API adalah aspek konfigurasi keamanan yang menentukan alamat jaringan, yang juga dikenal sebagai endpoint layanan. (misalnya, aiplatform.googleapis.com).
  • Perkiraan Tetangga Terdekat (ANN)
    • Layanan Estimate Nearest Neighbor (ANN) adalah solusi latensi rendah berskala tinggi, untuk menemukan vektor serupa (atau lebih khusus lagi, "embeddings") untuk korpus besar.
  • artefak
    • Artefak adalah entity atau bagian data terpisah yang dihasilkan dan digunakan oleh alur kerja machine learning. Contoh artefak meliputi set data, model, file input, dan log pelatihan.
  • Artifact Registry
    • Artifact Registry adalah layanan pengelolaan artefak universal. Layanan ini direkomendasikan untuk mengelola container dan artefak lain di Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Artifact Registry.
  • prediksi batch
    • Prediksi batch mengambil sekumpulan permintaan prediksi dan mengeluarkan hasilnya dalam satu file. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan prediksi batch.
  • kotak pembatas
    • Kotak pembatas untuk objek dalam frame video dapat ditentukan menggunakan salah satu dari dua cara, yaitu (i) Menggunakan 2 verteks yang terdiri dari satu set koordinat x,y jika berlawanan secara diagonal dengan persegi panjang. Misalnya: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Menggunakan keempat verteks. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data video.
  • metrik klasifikasi
    • Metrik klasifikasi yang didukung di Vertex AI SDK untuk Python adalah matriks konfusi dan kurva ROC.
  • konteks
    • Konteks digunakan untuk mengelompokkan artefak dan eksekusi dalam satu kategori dengan jenis tertentu yang dapat dikueri. Konteks dapat digunakan untuk merepresentasikan kumpulan metadata. Contoh Konteks adalah proses pipeline machine learning.
  • Kunci enkripsi yang dikelola pelanggan (CMEK)
    • Kunci enkripsi yang dikelola pelanggan (CMEK) adalah integrasi yang memungkinkan pelanggan mengenkripsi data di layanan Google yang ada menggunakan kunci yang mereka kelola di Cloud KMS (juga dikenal sebagai Storky). Kunci dalam Cloud KMS adalah kunci enkripsi kunci yang melindungi data mereka.
  • set data
    • Set data secara luas didefinisikan sebagai kumpulan data terstruktur atau tidak terstruktur. Untuk informasi lebih lanjut, lihat Membuat set data.
  • penyematan
    • Embedding adalah jenis vektor yang digunakan untuk merepresentasikan data dengan cara menangkap makna semantiknya. Embeddings biasanya dibuat menggunakan teknik machine learning, dan sering digunakan dalam natural language processing (NLP) dan aplikasi machine learning lainnya.
  • peristiwa
    • Peristiwa menjelaskan hubungan antara artefak dan eksekusi. Setiap artefak dapat dihasilkan oleh suatu eksekusi dan digunakan oleh eksekusi lainnya. Peristiwa membantu Anda menentukan asal artefak dalam alur kerja ML dengan merangkai artefak dan eksekusi.
  • eksekusi
    • Eksekusi adalah kumpulan data dari setiap langkah alur kerja machine learning, biasanya dianotasi dengan parameter runtime-nya. Contoh eksekusi meliputi penyerapan data, validasi data, pelatihan model, evaluasi model, dan deployment model.
  • eksperimen
    • Eksperimen adalah konteks yang dapat berisi kumpulan n operasi eksperimen selain proses pipeline tempat pengguna dapat menyelidiki—sebagai suatu grup—berbagai konfigurasi, seperti hyperparameter atau artefak input.
  • operasi eksperimen
    • Operasi eksperimen dapat berisi metrik, parameter, eksekusi, dan artefak yang ditentukan pengguna, serta resource Vertex (misalnya, PipelineJob).
  • analisis data eksploratif
    • Dalam statistik, analisis data eksploratif (EDA) merupakan pendekatan untuk menganalisis set data guna merangkum karakteristik utamanya, sering kali dengan metode visual. Model statistik dapat digunakan ataupun tidak, tetapi utamanya EDA digunakan untuk melihat apa yang dapat ditunjukkan data kepada kita di luar tugas pengujian hipotesis atau pemodelan formal.
  • fitur
    • Dalam machine learning (ML), fitur adalah karakteristik atau atribut instance atau entity yang digunakan sebagai input untuk melatih model ML atau membuat prediksi.
  • rekayasa fitur
    • Rekayasa fitur adalah proses mengubah data mentah machine learning (ML) menjadi fitur yang dapat digunakan untuk melatih model ML atau membuat prediksi.
  • nilai fitur
    • Nilai fitur sesuai dengan nilai aktual dan terukur fitur (atribut) dari sebuah instance atau entity. Kumpulan nilai fitur untuk entity unik yang mewakili kumpulan data fitur yang sesuai dengan entity.
  • penyajian fitur
    • Penyajian fitur adalah proses mengekspor atau mengambil nilai fitur untuk pelatihan atau inferensi. Di Vertex AI, ada dua jenis penyajian fitur, yaitu layanan online dan offline. Penyajian online mengambil nilai fitur terbaru dari subset sumber data fitur untuk prediksi online. Penyajian offline atau penyaluran batch mengekspor data fitur dalam jumlah besar untuk pemrosesan offline, seperti pelatihan model ML.
  • stempel waktu fitur
    • Stempel waktu fitur menunjukkan kapan serangkaian nilai fitur dalam kumpulan data fitur tertentu untuk entity dihasilkan.
  • kumpulan data fitur
    • Kumpulan data fitur adalah penggabungan semua nilai fitur yang mendeskripsikan atribut entitas unik pada titik waktu tertentu.
  • registry fitur
    • Registry fitur adalah antarmuka pusat untuk merekam sumber data fitur yang ingin Anda sajikan untuk prediksi online.
  • grup fitur
    • Grup fitur adalah resource registry fitur yang sesuai dengan tabel sumber BigQuery atau tampilan yang berisi data fitur. Tampilan fitur dapat berisi fitur dan dapat dianggap sebagai pengelompokan logis kolom fitur dalam sumber data.
  • tampilan fitur
    • Tampilan fitur adalah kumpulan logis fitur yang terwujud dari sumber data BigQuery ke instance penyimpanan online. Tampilan fitur menyimpan dan memperbarui data fitur pelanggan secara berkala, yang diperbarui secara berkala dari sumber BigQuery. Tampilan fitur berkaitan dengan penyimpanan data fitur baik secara langsung maupun melalui pengaitan ke resource registry fitur.
  • Google Cloud pipeline components SDK
    • Google Cloud pipeline components (GCPC) SDK menyediakan sekumpulan komponen Kubeflow Pipeline bawaan yang berkualitas produksi, berperforma tinggi, dan mudah digunakan. Anda dapat menggunakan Google Cloud Pipeline Components untuk menentukan dan menjalankan pipeline ML di Vertex AI Pipelines serta backend eksekusi pipeline ML lainnya yang sesuai dengan Kubeflow Pipelines. Untuk mengetahui informasi selengkapnya, lihat .
  • histogram
    • Tampilan grafis variasi dalam satu set data menggunakan batang. Histogram memvisualisasikan pola yang sulit dideteksi dalam tabel angka sederhana.
  • indeks
    • Sekumpulan vektor yang di-deploy bersama untuk penelusuran kemiripan. Vektor dapat ditambahkan ke indeks atau dihapus dari indeks. Kueri penelusuran kemiripan dikeluarkan pada indeks tertentu dan akan menelusuri vektor dalam indeks tersebut.
  • kebenaran dasar
    • Istilah yang mengacu pada verifikasi machine learning untuk memastikan akurasi terhadap dunia nyata, seperti set data kebenaran dasar.
  • Machine Learning Metadata
    • ML Metadata (MLMD) adalah library untuk merekam dan mengambil metadata yang terkait dengan alur kerja developer ML dan data scientist. MLMD merupakan bagian integral dari TensorFlow Extended (TFX), tetapi didesain agar dapat digunakan secara independen. Sebagai bagian dari platform TFX yang lebih luas, sebagian besar pengguna hanya berinteraksi dengan MLMD saat memeriksa hasil komponen pipeline, misalnya di notebook atau di TensorBoard.
  • set data terkelola
    • Objek set data yang dibuat dan dihosting oleh Vertex AI.
  • resource metadata
    • Vertex ML Metadata mengekspos model data seperti grafik untuk merepresentasikan metadata yang dihasilkan dan digunakan dari alur kerja ML. Konsep utamanya adalah artefak, eksekusi, peristiwa, dan konteks.
  • MetadataSchema
    • MetadataSchema menjelaskan skema untuk jenis artefak, eksekusi, atau konteks tertentu. MetadataSchemas digunakan untuk memvalidasi pasangan nilai kunci selama pembuatan resource Metadata yang sesuai. Validasi skema hanya dilakukan pada kolom yang cocok antara resource dan MetadataSchema. Skema jenis direpresentasikan menggunakan Objek Skema OpenAPI, yang harus dideskripsikan menggunakan YAML.
  • MetadataStore
    • MetadataStore adalah container tingkat atas untuk resource metadata. MetadataStore bersifat regional dan berkaitan dengan project Google Cloud tertentu. Biasanya, organisasi menggunakan satu MetadataStore bersama untuk resource metadata dalam setiap project.
  • pipeline ML
    • Pipeline ML adalah alur kerja ML portabel dan skalabel yang didasarkan pada container.
  • model
    • Semua model yang telah dilatih maupun tidak.
  • nama resource model
    • Nama resource untuk model sebagai berikut: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Anda dapat menemukan ID model di konsol Cloud pada halaman 'Model Registry'.
  • penyimpanan offline
    • Penyimpanan offline adalah fasilitas penyimpanan yang menyimpan data fitur terbaru dan historis, yang biasanya digunakan untuk melatih model ML. Penyimpanan offline juga berisi nilai fitur terbaru, yang dapat Anda sajikan untuk prediksi online.
  • penyimpanan online
    • Dalam pengelolaan fitur, penyimpanan online adalah fasilitas penyimpanan untuk nilai fitur terbaru yang akan disajikan untuk prediksi online.
  • parameter
    • Parameter adalah nilai input dengan kunci yang mengonfigurasi operasi, mengatur perilaku operasi, dan memengaruhi hasil operasi. Contohnya termasuk kecepatan pembelajaran, tingkat putus sekolah, dan jumlah langkah pelatihan.
  • pipeline
    • Pipeline ML adalah alur kerja ML portabel dan skalabel yang didasarkan pada container.
  • komponen pipeline
    • Sekumpulan kode mandiri yang melakukan satu langkah dalam alur kerja pipeline, seperti prapemrosesan data, transformasi data, dan pelatihan model.
  • tugas pipeline
    • Resource di Vertex AI API yang sesuai dengan Tugas Pipeline Vertex. Pengguna membuat PipelineJob saat ingin menjalankan Pipeline ML di Vertex AI.
  • operasi pipeline
    • Satu atau beberapa PipelineJob Vertex dapat dikaitkan dengan eksperimen, dengan setiap PipelineJob direpresentasikan sebagai satu operasi. Dalam konteks ini, parameter operasi disimpulkan oleh parameter PipelineJob. Metrik disimpulkan dari artefak system.Metric yang dihasilkan oleh PipelineJob. Artefak proses disimpulkan dari artefak yang dihasilkan oleh PipelineJob tersebut.
  • template pipeline
    • Definisi alur kerja ML yang dapat digunakan kembali oleh satu atau beberapa pengguna untuk membuat beberapa operasi pipeline.
  • perolehan
    • Persentase tetangga terdekat sebenarnya yang ditampilkan oleh indeks. Misalnya, jika kueri tetangga terdekat untuk 20 tetangga terdekat menampilkan 19 tetangga terdekat “kebenaran nyata”, perolehannya adalah 19/20x100 = 95%.
  • batasan
    • Fungsionalitas untuk "membatasi" penelusuran ke subset indeks dengan menggunakan aturan Boolean. Membatasi disebut juga sebagai "pemfilteran". Dengan Penelusuran Vektor, Anda dapat menggunakan pemfilteran numerik dan pemfilteran atribut teks.
  • akun layanan
    • Di Google Cloud, akun layanan adalah jenis akun khusus yang digunakan oleh aplikasi atau instance virtual machine (VM), bukan orang. Aplikasi menggunakan akun layanan untuk melakukan panggilan API yang diotorisasi.
  • metrik ringkasan
    • Metrik ringkasan adalah satu nilai untuk setiap kunci metrik dalam suatu operasi eksperimen. Misalnya, akurasi pengujian eksperimen adalah akurasi yang dihitung terhadap set data pengujian di akhir pelatihan yang dapat dicatat sebagai metrik ringkasan nilai tunggal.
  • TensorBoard
    • TensorBoard adalah rangkaian aplikasi web untuk memvisualisasikan dan memahami operasi dan model TensorFlow. Untuk mengetahui informasi selengkapnya, lihat TensorBoard.
  • Nama Resource TensorBoard
    • Nama TensorBoard Resource digunakan untuk sepenuhnya mengidentifikasi instance Vertex AI TensorBoard. Formatnya adalah sebagai berikut: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBoard_INSTANCE_ID.
  • instance TensorBoard
    • Instance TensorBoard adalah resource regional yang menyimpan Eksperimen Vertex AI TensorBoard yang terkait dengan Project. Anda dapat membuat beberapa instance TensorBoard dalam suatu project jika, misalnya, Anda menginginkan beberapa instance dengan CMEK yang aktif. Hal ini sama dengan resource TensorBoard pada API.
  • TensorFlow Extended (TFX)
    • Tensorflow extended (tfx), platform menyeluruh untuk men-deploy pipeline machine learning produksi berdasarkan platform tensorflow.
  • selisih waktu
    • Selisih waktu bersifat relatif terhadap awal video.
  • segmen waktu
    • Segmen waktu diidentifikasi dengan selisih waktu awal dan akhir.
  • metrik deret waktu
    • Metrik deret waktu adalah nilai metrik longitudinal dengan setiap nilai mewakili langkah dalam bagian rutinitas pelatihan dari suatu operasi. Metrik deret waktu disimpan di Vertex AI TensorBoard. Eksperimen Vertex AI menyimpan referensi ke resource Vertex TensorBoard.
  • token
    • Token dalam model bahasa adalah unit atom yang digunakan model untuk melatih dan membuat prediksi, yaitu kata, morfem, dan karakter. Di domain di luar model bahasa, token dapat merepresentasikan jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset dari sebuah gambar.
  • artefak yang tidak dikelola
    • Artefak yang ada di luar konteks Vertex AI.
  • vektor
    • Vektor adalah daftar nilai float yang memiliki magnitudo dan arah. Hal ini dapat digunakan untuk mewakili segala jenis data, seperti angka, titik dalam ruang, atau arah.
  • Eksperimen Vertex AI
    • Eksperimen Vertex AI memungkinkan pengguna melacak (i) langkah-langkah operasi eksperimen, misalnya, prapemrosesan, pelatihan, (ii) input, misalnya, algoritma, parameter, set data, (iii) output dari langkah-langkah tersebut, misalnya, model, checkpoint, metrik.
  • Eksperimen Vertex AI TensorBoard
    • Data yang terkait dengan Eksperimen dapat dilihat di aplikasi web TensorBoard (skalar, histogram, distribusi, dll.). Skalar deret waktu dapat dilihat di Konsol Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Membandingkan dan menganalisis operasi.
  • Jenis data vertex
    • Jenis data Vertex AI adalah "gambar", "teks", "tabel", dan "video".
  • segmen video
    • Segmen video diidentifikasi dengan selisih waktu awal dan akhir video.
  • virtual private cloud (VPC)
    • Virtual private cloud adalah kumpulan resource komputasi bersama yang dapat dikonfigurasi dan sesuai permintaan, yang dialokasikan di lingkungan cloud publik serta menyediakan tingkat isolasi antara organisasi yang berbeda menggunakan resource tersebut.