Tabular Workflow untuk Perkiraan

Dokumen ini memberikan ringkasan pipeline dan komponen Tabular Workflow untuk Perkiraan. Untuk mempelajari cara melatih model, lihat Melatih model dengan Tabular Workflow untuk Perkiraan .

Tabular Workflow untuk Perkiraan adalah pipeline lengkap untuk tugas perkiraan. Hal ini mirip dengan AutoML API, tetapi memungkinkan Anda memilih apa yang akan dikontrol dan diotomatisasi. Alih-alih memiliki kontrol untuk seluruh pipeline, Anda memiliki kontrol untuk setiap langkah di pipeline. Kontrol pipeline ini mencakup:

  • Pemisahan data
  • Rekayasa fitur
  • Penelusuran arsitektur
  • Pelatihan model
  • Ansambel model

Manfaat

Berikut adalah beberapa manfaat Tabular Workflow untuk Perkiraan :

  • Mendukung set data besar yang berukuran hingga 1 TB dan memiliki maksimal 200 kolom.
  • Memungkinkan Anda meningkatkan stabilitas dan menurunkan waktu pelatihan dengan membatasi ruang penelusuran jenis arsitektur atau melewati penelusuran arsitektur.
  • Memungkinkan Anda meningkatkan kecepatan pelatihan dengan memilih secara manual hardware yang digunakan untuk penelusuran arsitektur dan pelatihan.
  • Untuk beberapa metode pelatihan model, Anda dapat mengurangi ukuran model dan meningkatkan latensi dengan mengubah ukuran ansambel.
  • Setiap komponen AutoML dapat diperiksa dengan antarmuka grafik pipeline andal yang memungkinkan Anda melihat tabel data yang ditransformasi, arsitektur model yang dievaluasi, dan banyak detail lainnya.
  • Setiap komponen mendapatkan fleksibilitas dan transparansi yang lebih luas, seperti kemampuan untuk menyesuaikan parameter, hardware, status proses tampilan, log, dan lain-lain.

Perkiraan di Vertex AI Pipelines

Tabular Workflow untuk Perkiraan adalah instance terkelola dari Vertex AI Pipelines.

Vertex AI Pipelines adalah layanan tanpa server yang menjalankan pipeline Kubeflow. Anda dapat menggunakan pipeline untuk mengotomatisasi dan memantau machine learning serta tugas penyiapan data Anda. Setiap langkah di pipeline menjalankan bagian dari alur kerja pipeline. Misalnya, pipeline dapat mencakup langkah-langkah untuk memisahkan data, mengubah jenis data, dan melatih model. Karena langkah tersebut adalah instance komponen pipeline, langkah memiliki input, output, dan image container. Input langkah dapat ditetapkan dari input pipeline atau dapat bergantung pada output langkah lain dalam pipeline ini. Dependensi ini menentukan alur kerja pipeline sebagai directed acyclic graph.

Ringkasan pipeline dan komponen

Diagram berikut menunjukkan pipeline pemodelan untuk Tabular Workflow untuk Perkiraan :

Pipeline untuk Perkiraan 

Komponen pipeline adalah:

  1. feature-transform-engine: Melakukan rekayasa fitur. Lihat Feature Transform Engine untuk mengetahui detailnya.
  2. training-configurator-and-validator: Mevalidasi konfigurasi pelatihan dan membuat metadata pelatihan.

    Input:

    • instance_schema: Skema instance dalam spesifikasi OpenAPI, yang menjelaskan jenis data dari data prediksi.
    • dataset_stats: Statistik yang mendeskripsikan set data mentah. Misalnya, dataset_stats memberikan jumlah baris dalam set data.
    • training_schema: Skema data pelatihan dalam spesifikasi OpenAPI, yang menjelaskan jenis data dari data pelatihan.
  3. split-materialized-data: Memisahkan data terwujud ke dalam set pelatihan, set evaluasi, dan set pengujian.

    Input:

    • materialized_data: Data terwujud.

    Output:

    • materialized_train_split: Pemisahan pelatihan terwujud.
    • materialized_eval_split: Pemisahan evaluasi terwujud.
    • materialized_test_split: Set pengujian terwujud.
  4. calculate-training-parameters-2: Menghitung durasi runtime yang diharapkan untuk calculate-training-parameters-2.

  5. get-hyperparameter-tuning-results - Opsional: Jika Anda mengonfigurasi pipeline untuk melewati penelusuran arsitektur, muat hasil penyesuaian hyperparameter dari pipeline sebelumnya kueri.

  6. Melakukan penelusuran arsitektur model dan menyesuaikan hyperparameter (automl-forecasting-stage-1-tuner) atau menggunakan hasil penyesuaian hyperparameter dari operasi pipeline sebelumnya (automl-forecasting-stage-2 -tuner).

    • Arsitektur ditentukan oleh sekumpulan hyperparameter.
    • Hyperparameter mencakup jenis model dan parameter model.
    • Jenis model yang dipertimbangkan adalah jaringan neural dan hierarki yang ditingkatkan.
    • Sebuah model dilatih untuk setiap arsitektur yang dipertimbangkan.

    Input:

    • materialized_train_split: Pemisahan pelatihan terwujud.
    • materialized_eval_split: Pemisahan evaluasi terwujud.
    • artifact - Hasil penyesuaian hyperparameter dari operasi pipeline sebelumnya. Artefak ini adalah input hanya jika Anda mengonfigurasi pipeline untuk melewati penelusuran arsitektur.

    Output:

    • tuning_result_output: Menyesuaikan output.
  7. get-prediction-image-uri-2: Membuat URI gambar prediksi yang benar berdasarkan jenis model.

  8. automl-forecasting-ensemble-2: Menyusun arsitektur terbaik untuk menghasilkan model akhir.

    Input:

    • tuning_result_output: Menyesuaikan output.

    Output:

    • unmanaged_container_model: Model output.
  9. model-upload-2 - Mengupload model.

    Input:

    • unmanaged_container_model: Model output.

    Output:

    • model: Model Vertex AI.
  10. should_run_model_evaluation - should_run_model_evaluation: Menggunakan set pengujian untuk menghitung metrik evaluasi.

Langkah selanjutnya