Differenza tra previsioni online e batch
Le previsioni online sono richieste sincrone effettuate a un endpoint del modello. Utilizza le previsioni online quando effettui richieste in risposta all'input dell'applicazione o in situazioni che richiedono un'inferenza tempestiva.
Le previsioni batch sono richieste asincrone. Puoi richiedere previsioni batch direttamente dalla risorsa del modello senza dover eseguire il deployment del modello in un endpoint. Per i dati di testo, utilizza le previsioni batch quando non hai bisogno di una risposta immediata e vuoi elaborare i dati accumulati attraverso un'unica richiesta.
Ricevi previsioni online
Esegui il deployment di un modello in un endpoint
Devi eseguire il deployment di un modello in un endpoint prima che possa essere utilizzato per pubblicare previsioni online. Il deployment di un modello associa le risorse fisiche al modello in modo che possa fornire previsioni online con bassa latenza.
Puoi eseguire il deployment di più modelli in un endpoint e di un modello in più di un endpoint. Per ulteriori informazioni sulle opzioni e sui casi d'uso per il deployment dei modelli, consulta Informazioni sul deployment dei modelli.
Utilizza uno dei seguenti metodi per eseguire il deployment di un modello:
Console Google Cloud
Nella console Google Cloud, nella sezione Vertex AI, vai alla pagina Modelli.
Fai clic sul nome del modello di cui vuoi eseguire il deployment per aprire la relativa pagina dei dettagli.
Seleziona la scheda Deployment e test.
Se il deployment del modello è già stato eseguito in uno degli endpoint, questi sono elencati nella sezione Esegui il deployment del modello.
Fai clic su Esegui il deployment su endpoint.
Per eseguire il deployment del modello su un nuovo endpoint, seleziona
Crea nuovo endpoint e specifica un nome per il nuovo endpoint. Per eseguire il deployment del modello in un endpoint esistente, seleziona Aggiungi a endpoint esistente e seleziona l'endpoint dall'elenco a discesa.Puoi aggiungere più di un modello a un endpoint e un modello a più di un endpoint. Scopri di più
Se esegui il deployment del modello su un endpoint esistente di cui è stato eseguito il deployment di uno o più modelli, devi aggiornare la percentuale di suddivisione del traffico per il modello di cui stai eseguendo il deployment e per i modelli già distribuiti, in modo che la somma di tutte le percentuali arrivi al 100%.
Seleziona AutoML Text e configura come segue:
Se esegui il deployment del modello in un nuovo endpoint, accetta 100 per la suddivisione del traffico. In caso contrario, regola i valori di suddivisione del traffico per tutti i modelli nell'endpoint in modo che vengano sommati fino a 100.
Fai clic su Fine per il modello e, quando tutte le percentuali di Suddivisione del traffico sono corrette, fai clic su Continua.
Viene visualizzata la regione in cui viene eseguito il deployment del modello. Deve essere la regione in cui hai creato il modello.
Fai clic su Esegui il deployment per eseguire il deployment del modello nell'endpoint.
API
Quando esegui il deployment di un modello utilizzando l'API Vertex AI, completa i seguenti passaggi:
- Crea un endpoint, se necessario.
- Recupera l'ID endpoint.
- Eseguire il deployment del modello nell'endpoint.
Crea un endpoint
Se stai eseguendo il deployment di un modello in un endpoint esistente, puoi saltare questo passaggio.
gcloud
L'esempio seguente utilizza il comando gcloud ai endpoints create
:
gcloud ai endpoints create \
--region=LOCATION \
--display-name=ENDPOINT_NAME
Sostituisci quanto segue:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- ENDPOINT_NAME: il nome visualizzato dell'endpoint.
Lo strumento Google Cloud CLI potrebbe richiedere alcuni secondi per creare l'endpoint.
REST
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- LOCATION_ID: la tua regione.
- PROJECT_ID: il tuo ID progetto.
- ENDPOINT_NAME: il nome visualizzato dell'endpoint.
Metodo HTTP e URL:
POST http://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints
Corpo JSON della richiesta:
{ "display_name": "ENDPOINT_NAME" }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata", "genericMetadata": { "createTime": "2020-11-05T17:45:42.812656Z", "updateTime": "2020-11-05T17:45:42.812656Z" } } }
"done": true
.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Java Vertex AI.
Per l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Node.js Vertex AI.
Per l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
SDK Vertex AI per Python
Per scoprire come installare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'SDK Vertex AI per l'API Python.
Recupera l'ID endpoint
È necessario l'ID endpoint per eseguire il deployment del modello.
gcloud
L'esempio seguente utilizza il comando gcloud ai endpoints list
:
gcloud ai endpoints list \
--region=LOCATION \
--filter=display_name=ENDPOINT_NAME
Sostituisci quanto segue:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- ENDPOINT_NAME: il nome visualizzato dell'endpoint.
Prendi nota del numero riportato nella colonna ENDPOINT_ID
. Utilizza questo ID nel
passaggio successivo.
REST
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- PROJECT_ID: il tuo ID progetto.
- ENDPOINT_NAME: il nome visualizzato dell'endpoint.
Metodo HTTP e URL:
GET http://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints?filter=display_name=ENDPOINT_NAME
Per inviare la richiesta, espandi una di queste opzioni: