Coba model Gemini 1.5, model multimodal terbaru kami di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta. Coba model Gemini 1.5, model multimodal terbaru kami di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token sebesar 1 juta.

Halaman ini diterjemahkan oleh Cloud Translation API.

Pertanyaan dan jawaban visual (VQA)

Imagen for Captioning & VQA (imagetext) adalah nama model yang mendukung pertanyaan dan jawaban gambar. Imagen for Captioning & VQA menjawab pertanyaan yang diberikan untuk gambar tertentu, meskipun gambar tersebut belum pernah dilihat oleh model ini.

Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.

Pergi ke Model Garden

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pertanyaan dan jawaban gambar mencakup:

Memberdayakan pengguna untuk berinteraksi dengan konten visual melalui Tanya Jawab.
Buat pelanggan berinteraksi dengan gambar produk yang ditampilkan di aplikasi dan situs retail.
Menyediakan opsi aksesibilitas untuk pengguna penyandang gangguan penglihatan.

Permintaan HTTP

POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "prompt": string,
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model pembuatan Tanya Jawab visual imagetext. Untuk informasi selengkapnya, lihat Menggunakan Visual Question Answering (VQA).

Parameter	Deskripsi	Nilai yang dapat diterima
`instances`	Array yang berisi objek dengan detail perintah dan gambar yang akan mendapatkan informasinya.	array (1 objek gambar diizinkan)
`prompt`	Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.	string (maks. 80 token)
`bytesBase64Encoded`	Gambar yang informasinya akan diperoleh.	String gambar berenkode base64 (PNG atau JPEG, maks. 20 MB)
`gcsUri`	URI Cloud Storage gambar untuk mendapatkan informasi.	URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB)
`mimeType`	Opsional. Jenis MIME gambar yang Anda tentukan.	string (`image/jpeg` atau `image/png`)
`sampleCount`	Jumlah string teks yang dihasilkan.	Nilai bilangan bulat: 1-3
`seed`	Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama.	bilangan bulat

Contoh permintaan

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: ID project Google Cloud Anda.
LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk mengetahui daftar region yang tersedia, lihat Generative AI di lokasi Vertex AI.
VQA_PROMPT: Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.
- Apa warna sepatu ini?
- Lengan jenis apa yang digunakan di kemeja ini?
B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode Base64. Batas ukuran: 10 MB.
RESPONSE_COUNT: Jumlah jawaban yang ingin Anda hasilkan. Nilai bilangan bulat yang diterima: 1-3.

Metode HTTP dan URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke CLI gcloud dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login, atau menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke CLI gcloud. Anda dapat memeriksa akun yang aktif saat ini dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke CLI gcloud dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login. Anda dapat memeriksa akun yang aktif saat ini dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons akan menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Isi respons


{
  "predictions": [
    string
  ]
}

Elemen respons	Deskripsi
`predictions`	Daftar string teks yang merepresentasikan jawaban VQA, diurutkan berdasarkan keyakinan.

Contoh respons

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}