Legendas de imagem

imagetext é o nome do modelo que aceita legendas de imagens. imagetext gera uma legenda a partir de uma imagem que você fornece com base no idioma especificado. O modelo dá suporte aos seguintes idiomas: inglês (en), alemão (de), francês (fr), espanhol (es) e italiano (it).

Para conferir esse modelo no console, consulte o card de modelo Image Captioning no Model Garden.

Acessar o Model Garden

Casos de uso

Alguns casos de uso comuns de legendagem de imagens incluem:

  • Os criadores de conteúdo podem gerar legendas para imagens e vídeos enviados (por exemplo, uma breve descrição de uma sequência de vídeos).
  • Gerar legendas para descrever os produtos
  • Integrar legendas a um app usando a API para criar novas experiências

Solicitação HTTP

POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corpo da solicitação

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer,
    "includeRaiReason": bool
  }
}

Use os parâmetros a seguir para o modelo do Imagen imagetext. Para mais informações, consulte Conferir descrições de imagens usando legendas visuais.

Parâmetro Descrição Valores aceitáveis
image A imagem que receberá as legendas. Podem ser bytes de imagem Base64 ou o URI do Cloud Storage. Imagem codificada em Base64 (20 MB)
mask Opcional. Imagem de máscara para edição baseada em máscara. Imagem codificada em Base64 (20 MB)
sampleCount Número de textos gerados. Int value: 1-3
seed Opcional. A semente do gerador de número aleatório (RNG). Se a semente RNG for a mesma para solicitações com entradas, os resultados da previsão serão os mesmos. integer
storageUri Opcional. O local do Cloud Storage para salvar as respostas de texto geradas. string
language Opcional. A solicitação de texto para orientar a resposta. Enum de strings: en (padrão), de, fr, it, es
includeRaiReason Opcional. Define se o código de motivo filtrado da IA responsável será ativado em respostas com conteúdo bloqueado. bool

Exemplo de solicitação

REST

Para testar um prompt de texto usando a API Vertex AI, envie uma solicitação POST para o endpoint do modelo do editor.

Antes de usar os dados da solicitação, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto do Google Cloud.
  • B64_IMAGE: a imagem que receberá as legendas. A imagem precisa ser especificada como uma string de bytes codificada em base64. Limite de tamanho: 10 MB.
  • RESPONSE_COUNT: o número de legendas de imagem que você quer gerar. Valores inteiros aceitos: 1 a 3.
  • LANGUAGE_CODE: um dos códigos de idioma compatíveis. Linguagens compatíveis:
    • Inglês (en)
    • Francês (fr)
    • Alemão (de)
    • Italiano (it)
    • Espanhol (es)

Método HTTP e URL:

POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corpo JSON da solicitação:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
As respostas de amostra a seguir são de uma solicitação com "sampleCount": 2. A resposta retorna duas strings de previsão.

Inglês (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Espanhol (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Corpo da resposta

{
  "predictions": [ string ]
}
Elemento de resposta Descrição
predictions Lista de strings de texto representando legendas, classificadas por confiança.

Exemplo de resposta

{
  "predictions": [
    "text1",
    "text2"
  ]
}