Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione. Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione.

Questa pagina è stata tradotta dall'API Cloud Translation.

Deployment e gestione degli endpoint indice in una rete VPC

Il deployment di un indice in un endpoint include le tre attività seguenti:

Crea un IndexEndpoint, se necessario, oppure riutilizza un oggetto IndexEndpoint esistente.
Ottieni l'ID IndexEndpoint.
Esegui il deployment dell'indice in IndexEndpoint.

Crea un elemento `IndexEndpoint` all'interno della tua rete VPC

Se stai eseguendo il deployment di una Index in un IndexEndpoint esistente, puoi saltare questo passaggio.

Prima di utilizzare un indice per gestire query di corrispondenza vettoriale online, devi eseguire il deployment di Index su un IndexEndpoint all'interno della rete di peering di rete VPC. Il primo passaggio è creare un IndexEndpoint. Puoi eseguire il deployment di più indici in un IndexEndpoint che condivide la stessa rete VPC.

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints create.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_NAME: nome visualizzato dell'endpoint indice.
VPC_NETWORK_NAME: il nome della rete Google Compute Engine verso cui deve essere eseguito il peering dell'endpoint indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints create \
    --display-name=INDEX_ENDPOINT_NAME \
    --network=VPC_NETWORK_NAME \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints create `
    --display-name=INDEX_ENDPOINT_NAME `
    --network=VPC_NETWORK_NAME `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints create ^
    --display-name=INDEX_ENDPOINT_NAME ^
    --network=VPC_NETWORK_NAME ^
    --region=LOCATION ^
    --project=PROJECT_ID

Dovresti ricevere una risposta simile alla seguente:

The Google Cloud CLI tool might take a few minutes to create the IndexEndpoint.

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_NAME: nome visualizzato dell'endpoint indice.
VPC_NETWORK_NAME: il nome della rete Google Compute Engine verso cui deve essere eseguito il peering dell'endpoint indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints

Corpo JSON della richiesta:

{
  "display_name": "INDEX_ENDPOINT_NAME",
  "network": "VPC_NETWORK_NAME"
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che ti consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints"

PowerShell (Windows)

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateIndexEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2022-01-13T04:09:56.641107Z",
      "updateTime": "2022-01-13T04:09:56.641107Z"
    }
  }
}

Puoi eseguire il polling per verificare lo stato dell'operazione fino a quando la risposta non include "done": true.

Console

Utilizza queste istruzioni per creare un endpoint indice.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Viene visualizzato un elenco dei tuoi indici attivi.
Nella parte superiore della pagina, seleziona la scheda Endpoint indice. Gli endpoint indice vengono visualizzati.
Fai clic su Crea nuovo endpoint indice. Viene visualizzato il riquadro Crea un nuovo endpoint indice.
Inserisci un nome visualizzato per l'endpoint indice.
Nel campo Regione, seleziona una regione dal menu a discesa.
Nel campo Accesso, seleziona Privato.
Inserisci i dettagli della rete VPC in peering. Inserisci il nome completo della rete Compute Engine verso cui deve essere eseguito il peering del job. Il formato deve essere projects/{project_num}/global/networks/{network_id}
Fai clic su Crea.

Esegui il deployment di un indice

gcloud

In questo esempio viene utilizzato il comando gcloud ai index-endpoints deploy-index.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
DEPLOYED_INDEX_ENDPOINT_NAME: nome visualizzato dell'endpoint indice di cui è stato eseguito il deployment.
INDEX_ID: l'ID dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME \
    --index=INDEX_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME `
    --index=INDEX_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME ^
    --index=INDEX_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

Dovresti ricevere una risposta simile alla seguente:

The Google Cloud CLI tool might take a few minutes to create the IndexEndpoint.

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
DEPLOYED_INDEX_ENDPOINT_NAME: nome visualizzato dell'endpoint indice di cui è stato eseguito il deployment.
INDEX_ID: l'ID dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex

Corpo JSON della richiesta:

{
 "deployedIndex": {
   "id": "DEPLOYED_INDEX_ID",
   "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID",
   "displayName": "DEPLOYED_INDEX_ENDPOINT_NAME"
 }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
"

PowerShell (Windows)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-10-19T17:53:16.502088Z",
     "updateTime": "2022-10-19T17:53:16.502088Z"
   },
   "deployedIndexId": "DEPLOYED_INDEX_ID"
 }
}

Console

Utilizza queste istruzioni per eseguire il deployment dell'indice su un endpoint.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Viene visualizzato un elenco dei tuoi indici attivi.
Seleziona il nome dell'indice di cui vuoi eseguire il deployment. Si apre la pagina dei dettagli dell'indice.
Nella pagina dei dettagli dell'indice, fai clic su Esegui il deployment nell'endpoint. Si apre il riquadro di deployment dell'indice.
Inserisci un nome visualizzato, che funge da ID e non può essere aggiornato.
Dal menu a discesa Endpoint, seleziona l'endpoint in cui vuoi eseguire il deployment dell'indice. Nota: l'endpoint non è disponibile se è già stato eseguito il deployment dell'indice.
(Facoltativo) Nel campo Tipo di macchina, seleziona Standard o con memoria elevata.
Facoltativo. Seleziona Abilita scalabilità automatica per ridimensionare automaticamente il numero di nodi in base alle esigenze dei tuoi carichi di lavoro. Il numero predefinito di repliche è 2 se la scalabilità automatica è disabilitata.
Fai clic su Esegui il deployment per eseguire il deployment dell'indice nell'endpoint. Nota: il deployment richiede circa 30 minuti.

Abilita scalabilità automatica

Vector Search supporta la scalabilità automatica, che può ridimensionare automaticamente il numero di nodi in base alle esigenze dei tuoi carichi di lavoro. Quando la domanda è elevata, al pool di nodi vengono aggiunti nodi che non supereranno la dimensione massima designata. Quando la domanda è ridotta, il pool di nodi viene ridotto fino alla dimensione minima designata. Puoi verificare i nodi effettivi in uso e le modifiche monitorando le repliche attuali.

Per abilitare la scalabilità automatica, specifica maxReplicaCount e minReplicaCount quando esegui il deployment dell'indice:

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints deploy-index.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
DEPLOYED_INDEX_NAME: nome visualizzato dell'indice di cui è stato eseguito il deployment.
INDEX_ID: l'ID dell'indice.
MIN_REPLICA_COUNT: numero minimo di repliche della macchina in cui verrà sempre eseguito il deployment dell'indice. Se specificato, il valore deve essere maggiore o uguale a 1.
MAX_REPLICA_COUNT: numero massimo di repliche della macchina in cui è possibile eseguire il deployment dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --display-name=DEPLOYED_INDEX_NAME \
    --index=INDEX_ID \
    --min-replica-count=MIN_REPLICA_COUNT \
    --max-replica-count=MAX_REPLICA_COUNT \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --display-name=DEPLOYED_INDEX_NAME `
    --index=INDEX_ID `
    --min-replica-count=MIN_REPLICA_COUNT `
    --max-replica-count=MAX_REPLICA_COUNT `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --display-name=DEPLOYED_INDEX_NAME ^
    --index=INDEX_ID ^
    --min-replica-count=MIN_REPLICA_COUNT ^
    --max-replica-count=MAX_REPLICA_COUNT ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
DEPLOYED_INDEX_NAME: nome visualizzato dell'indice di cui è stato eseguito il deployment.
INDEX_ID: l'ID dell'indice.
MIN_REPLICA_COUNT: numero minimo di repliche della macchina in cui verrà sempre eseguito il deployment dell'indice. Se specificato, il valore deve essere maggiore o uguale a 1.
MAX_REPLICA_COUNT: numero massimo di repliche della macchina in cui è possibile eseguire il deployment dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex

Corpo JSON della richiesta:

{
 "deployedIndex": {
   "id": "DEPLOYED_INDEX_ID",
   "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID",
   "displayName": "DEPLOYED_INDEX_NAME",
   "automaticResources": {
     "minReplicaCount": MIN_REPLICA_COUNT,
     "maxReplicaCount": MAX_REPLICA_COUNT
   }
 }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
"

PowerShell (Windows)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2023-10-19T17:53:16.502088Z",
     "updateTime": "2023-10-19T17:53:16.502088Z"
   },
   "deployedIndexId": "DEPLOYED_INDEX_ID"
 }
}

Console

Puoi abilitare la scalabilità automatica dalla console solo durante il deployment dell'indice.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Viene visualizzato un elenco dei tuoi indici attivi.
Seleziona il nome dell'indice di cui vuoi eseguire il deployment. Si apre la pagina dei dettagli dell'indice.
Nella pagina dei dettagli dell'indice, fai clic su Esegui il deployment nell'endpoint. Si apre il riquadro di deployment dell'indice.
Inserisci un nome visualizzato, che funge da ID e non può essere aggiornato.
Dal menu a discesa Endpoint, seleziona l'endpoint in cui vuoi eseguire il deployment dell'indice. Nota: l'endpoint non è disponibile se è già stato eseguito il deployment dell'indice.
(Facoltativo) Nel campo Tipo di macchina, seleziona Standard o con memoria elevata.
Facoltativo. Seleziona Abilita scalabilità automatica per ridimensionare automaticamente il numero di nodi in base alle esigenze dei tuoi carichi di lavoro. Il numero predefinito di repliche è 2 se la scalabilità automatica è disabilitata.

Se minReplicaCount e maxReplicaCount non sono impostati, il valore predefinito è 2.
Se è impostato solo maxReplicaCount, minReplicaCount è impostato su 2 per impostazione predefinita.
Se è impostato solo minReplicaCount, il valore di maxReplicaCount è impostato su minReplicaCount.

Modifica un `DeployedIndex`

Puoi utilizzare l'API MutateDeployedIndex per aggiornare le risorse di deployment (ad esempio minReplicaCount e maxReplicaCount) di un indice di cui è già stato eseguito il deployment.

Gli utenti non sono autorizzati a modificare machineType dopo il deployment dell'indice.
Se maxReplicaCount non è specificato nella richiesta, DeployedIndex continuerà a utilizzare il valore esistente maxReplicaCount.

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints mutate-deployed-index.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
MIN_REPLICA_COUNT: numero minimo di repliche della macchina in cui verrà sempre eseguito il deployment dell'indice. Se specificato, il valore deve essere maggiore o uguale a 1.
MAX_REPLICA_COUNT: numero massimo di repliche della macchina in cui è possibile eseguire il deployment dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --min-replica-count=MIN_REPLICA_COUNT \
    --max-replica-count=MAX_REPLICA_COUNT \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --min-replica-count=MIN_REPLICA_COUNT `
    --max-replica-count=MAX_REPLICA_COUNT `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --min-replica-count=MIN_REPLICA_COUNT ^
    --max-replica-count=MAX_REPLICA_COUNT ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
MIN_REPLICA_COUNT: numero minimo di repliche della macchina in cui verrà sempre eseguito il deployment dell'indice. Se specificato, il valore deve essere maggiore o uguale a 1.
MAX_REPLICA_COUNT: numero massimo di repliche della macchina in cui è possibile eseguire il deployment dell'indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:mutateDeployedIndex

Corpo JSON della richiesta:

{
"deployedIndex": {
  "id": "DEPLOYED_INDEX_ID",
  "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID",
  "displayName": "DEPLOYED_INDEX_NAME"
}
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:mutateDeployedIndex"

PowerShell (Windows)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:mutateDeployedIndex" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
"metadata": {
  "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
  "genericMetadata": {
    "createTime": "2020-10-19T17:53:16.502088Z",
    "updateTime": "2020-10-19T17:53:16.502088Z"
  },
  "deployedIndexId": "DEPLOYED_INDEX_ID"
}
}

Impostazioni del deployment che influiscono sulle prestazioni

Le seguenti impostazioni di deployment possono influire su latenza, disponibilità e costi quando si utilizza Vector Search. Queste indicazioni si applicano alla maggior parte dei casi. Tuttavia, ti consigliamo sempre di sperimentare le configurazioni per assicurarti che funzionino al tuo caso d'uso.

Impostazione Impatto sulle prestazioni

Tipo di macchina

Impostazione	Impatto sulle prestazioni
Tipo di macchina	La selezione dell'hardware prevede un'interazione diretta con la dimensione dello shard selezionata. A seconda delle scelte di shard specificate al momento della creazione dell'indice, ogni tipo di macchina offre un compromesso tra prestazioni e costi. Fai riferimento alla pagina dei prezzi per determinare l'hardware disponibile e i prezzi. In generale, il rendimento aumenta nel seguente ordine: Standard E2 Memoria alta E2 Standard N1 Standard N2D
Numero minimo di repliche	`minReplicaCount` riserva una capacità minima di disponibilità e latenza per garantire che il sistema non abbia problemi di avvio a freddo quando il traffico viene scalato rapidamente da livelli bassi. Se hai carichi di lavoro che scendono a livelli bassi e poi aumentano rapidamente a livelli più elevati, valuta la possibilità di impostare `minReplicaCount` su un numero in grado di gestire i burst iniziali del traffico.
Numero massimo di repliche	`maxReplicaCount` ti consente principalmente di controllare i costi di utilizzo. Puoi scegliere di evitare l'aumento dei costi oltre una determinata soglia, con il compromesso di consentire una maggiore latenza e ridurre la disponibilità.

La selezione dell'hardware prevede un'interazione diretta con la dimensione dello shard selezionata. A seconda delle scelte di shard specificate al momento della creazione dell'indice, ogni tipo di macchina offre un compromesso tra prestazioni e costi.

Fai riferimento alla pagina dei prezzi per determinare l'hardware disponibile e i prezzi. In generale, il rendimento aumenta nel seguente ordine:

Standard E2
Memoria alta E2
Standard N1
Standard N2D

Numero minimo di repliche

minReplicaCount riserva una capacità minima di disponibilità e latenza per garantire che il sistema non abbia problemi di avvio a freddo quando il traffico viene scalato rapidamente da livelli bassi.

Se hai carichi di lavoro che scendono a livelli bassi e poi aumentano rapidamente a livelli più elevati, valuta la possibilità di impostare minReplicaCount su un numero in grado di gestire i burst iniziali del traffico.

Numero massimo di repliche maxReplicaCount ti consente principalmente di controllare i costi di utilizzo. Puoi scegliere di evitare l'aumento dei costi oltre una determinata soglia, con il compromesso di consentire una maggiore latenza e ridurre la disponibilità.

Elenco `IndexEndpoints`

Per elencare le risorse IndexEndpoint e visualizzare le informazioni di eventuali istanze DeployedIndex associate, esegui questo codice:

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints list.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints list \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints list `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints list ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

GET http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Esegui questo comando:

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints"

PowerShell (Windows)

Esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
 "indexEndpoints": [
   {
     "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID",
     "displayName": "INDEX_ENDPOINT_DISPLAY_NAME",
     "deployedIndexes": [
       {
         "id": "DEPLOYED_INDEX_ID",
         "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID",
         "displayName": "DEPLOYED_INDEX_DISPLAY_NAME",
         "createTime": "2021-06-04T02:23:40.178286Z",
         "privateEndpoints": {
           "matchGrpcAddress": "GRPC_ADDRESS"
         },
         "indexSyncTime": "2022-01-13T04:22:00.151916Z",
         "automaticResources": {
           "minReplicaCount": 2,
           "maxReplicaCount": 10
         }
       }
     ],
     "etag": "AMEw9yP367UitPkLo-khZ1OQvqIK8Q0vLAzZVF7QjdZ5O3l7Zow-mzBo2l6xmiuuMljV",
     "createTime": "2021-03-17T04:47:28.460373Z",
     "updateTime": "2021-06-04T02:23:40.930513Z",
     "network": "VPC_NETWORK_NAME"
   }
 ]
}

Console

Utilizza queste istruzioni per visualizzare un elenco degli endpoint indice.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Nella parte superiore della pagina, seleziona la scheda Endpoint indice.
Vengono visualizzati tutti gli endpoint indice esistenti.

Per maggiori informazioni, consulta la documentazione di riferimento per IndexEndpoint.

Annulla il deployment di un indice

Per annullare il deployment di un indice, esegui questo codice:

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints undeploy-index.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
DEPLOYED_INDEX_ID: una stringa specificata dall'utente per identificare in modo univoco l'indice di cui è stato eseguito il deployment. Deve iniziare con una lettera e contenere solo lettere, numeri o trattini bassi. Consulta DeployedIndex.id per le linee guida sul formato.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:undeployIndex

Corpo JSON della richiesta:

{
 "deployed_index_id": "DEPLOYED_INDEX_ID"
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:undeployIndex"

PowerShell (Windows)

Salva il corpo della richiesta in un file denominato request.json ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:undeployIndex" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.UndeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-01-13T04:09:56.641107Z",
     "updateTime": "2022-01-13T04:09:56.641107Z"
   }
 }
}

Console

Segui queste istruzioni per annullare il deployment di un indice.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Viene visualizzato un elenco dei tuoi indici attivi.
Seleziona l'indice di cui vuoi annullare il deployment. Si apre la pagina dei dettagli dell'indice.
Nella sezione Indici di cui è stato eseguito il deployment, identifica l'endpoint indice di cui vuoi annullare il deployment.
Fai clic sul menu opzioni che si trova nella stessa riga dell'endpoint indice e seleziona Annulla deployment.
Si apre una schermata di conferma. Fai clic su Annulla deployment. Nota: l'annullamento del deployment può richiedere fino a 30 minuti.

Elimina un `IndexEndpoint`

Prima di eliminare un IndexEndpoint, devi undeploy di tutti gli indici nell'endpoint.

gcloud

Nell'esempio seguente viene utilizzato il comando gcloud ai index-endpoints delete.

Prima di utilizzare uno qualsiasi dei dati di comando riportati di seguito, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

INDEX_ENDPOINT_ID: l'ID dell'endpoint indice.
LOCATION: la regione in cui utilizzi Vertex AI.
PROJECT_ID: il tuo ID progetto Google Cloud.
PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.

Metodo HTTP e URL:

DELETE http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Esegui questo comando:

curl -X DELETE \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID"

PowerShell (Windows)

Esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method DELETE `
    -Headers $headers `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeleteOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-01-13T04:36:19.142203Z",
     "updateTime": "2022-01-13T04:36:19.142203Z"
   }
 },
 "done": true,
 "response": {
   "@type": "type.googleapis.com/google.protobuf.Empty"
 }
}

Console

Utilizza queste istruzioni per eliminare un endpoint indice.

Nella sezione Vertex AI della console Google Cloud, vai alla sezione Deployment e utilizzo. Seleziona Ricerca vettoriale.
Vai a Vector Search
Nella parte superiore della pagina, seleziona la scheda Endpoint indice.
Vengono visualizzati tutti gli endpoint indice esistenti.
Fai clic sul menu opzioni che si trova nella stessa riga dell'endpoint indice che vuoi eliminare e seleziona Elimina.
Si apre una schermata di conferma. Fai clic su Elimina. L'endpoint indice è stato eliminato.

Deployment e gestione degli endpoint indice in una rete VPC

Crea un elemento IndexEndpoint all'interno della tua rete VPC

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Esegui il deployment di un indice

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Abilita scalabilità automatica

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Modifica un DeployedIndex

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Impostazioni del deployment che influiscono sulle prestazioni

Elenco IndexEndpoints

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Annulla il deployment di un indice

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Elimina un IndexEndpoint

gcloud

Linux, macOS o Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Crea un elemento `IndexEndpoint` all'interno della tua rete VPC

Modifica un `DeployedIndex`

Elenco `IndexEndpoints`

Elimina un `IndexEndpoint`