Teks gambar

Imagen for Captioning & VQA (imagetext) adalah nama model yang mendukung pemberian teks pada gambar. Imagen for Captioning & VQA menghasilkan teks dari gambar yang Anda berikan berdasarkan bahasa yang Anda tentukan. Saat ini, model ini mendukung lima bahasa: Inggris (en), Jerman (de), Prancis (fr), Spanyol (es), dan Italia (it).

Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.
<a{: class="button button-primary" l10n-attrs-original-order="href,target,class,track-name,track-type" l10n-encrypted-href="Oij88p5ibAVVY36vkmeWu1tigmNHgUGOXn/QVSGplOi71dheYhG9dKuv3S+0ajmQkfzB9oP/Mo2x7xIe1klR5YfhSFp50l9iYK7ReGU5gAVrYbuUxhAtiWlwYB5gctwR" target="console" track-name="consoleLink" track-type="tasks" }="">Buka Model Garden</a{:>

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pemberian teks pada gambar antara lain:

  • Kreator dapat membuat teks untuk gambar dan video yang diupload (misalnya, deskripsi singkat urutan video)
  • Membuat teks untuk mendeskripsikan produk
  • Mengintegrasikan pemberian teks dengan aplikasi menggunakan API guna menciptakan pengalaman baru

Permintaan HTTP

POST http://us-central1-aiplatform.googleapis.com/v1/projects/{PROJECT_ID}/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instance": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    },
    {
      // Optional
      "mask": {
        "image": {
          "bytesBase64Encoded": string,
          "gcsUri": string,
          "mimeType": string
        }
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model Imagen imagetext. Untuk mengetahui informasi selengkapnya, lihat Pemberian teks keterangan visual Vertex AI.

Parameter Deskripsi Nilai yang dapat diterima
image Gambar yang ingin Anda beri teks. Dapat berupa byte gambar Base64 atau Cloud Storage URI. Gambar berenkode base64 (20 MB)
mask Opsional. Menyamarkan gambar untuk pengeditan berbasis mask. Gambar berenkode Base64 (20 MB)
sampleCount Jumlah teks yang dihasilkan. Nilai bilangan bulat: 1-3
seed Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi akan sama. bilangan bulat
storageUri Opsional. Lokasi Cloud Storage untuk menyimpan respons teks yang dihasilkan. string
language Opsional. Prompt (perintah) teks untuk memandu respons. Enum String: en (default), de, fr, it, es

Permintaan sampel

REST

Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.

Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode base64. Batas ukuran: 10 MB.
  • RESPONSE_COUNT: Jumlah teks gambar yang ingin Anda buat. Nilai bilangan bulat yang diterima: 1-3.
  • LANGUAGE_CODE: Salah satu kode bahasa yang didukung. Bahasa yang didukung:
    • Inggris (en)
    • Prancis (fr)
    • Jerman (de)
    • Italia (it)
    • Spanyol (es)

Metode HTTP dan URL:

POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Untuk mengirim permintaan, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2. Respons akan menampilkan dua string prediksi.

Inggris (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanyol (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Isi respons

{
  "predictions": [ string ]
}
Elemen respons Deskripsi
predictions Daftar string teks yang merepresentasikan teks, yang diurutkan berdasarkan keyakinan.

Contoh respons

{
  "predictions": [
    "text1",
    "text2"
  ]
}