Imagen for Captioning & VQA (imagetext
) adalah nama model yang mendukung pemberian teks pada gambar.
Imagen for Captioning & VQA menghasilkan teks dari gambar yang Anda berikan berdasarkan
bahasa yang Anda tentukan. Saat ini, model ini mendukung lima bahasa: Inggris (en
),
Jerman (de
), Prancis (fr
), Spanyol (es
), dan Italia (it
).
Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.
<a{: class="button button-primary" l10n-attrs-original-order="href,target,class,track-name,track-type" l10n-encrypted-href="Oij88p5ibAVVY36vkmeWu1tigmNHgUGOXn/QVSGplOi71dheYhG9dKuv3S+0ajmQkfzB9oP/Mo2x7xIe1klR5YfhSFp50l9iYK7ReGU5gAVrYbuUxhAtiWlwYB5gctwR" target="console" track-name="consoleLink" track-type="tasks" }="">Buka Model Garden</a{:>
Kasus penggunaan
Beberapa kasus penggunaan umum untuk pemberian teks pada gambar antara lain:
- Kreator dapat membuat teks untuk gambar dan video yang diupload (misalnya, deskripsi singkat urutan video)
- Membuat teks untuk mendeskripsikan produk
- Mengintegrasikan pemberian teks dengan aplikasi menggunakan API guna menciptakan pengalaman baru
Permintaan HTTP
POST http://us-central1-aiplatform.googleapis.com/v1/projects/{PROJECT_ID}/locations/us-central1/publishers/google/models/imagetext:predict
Isi permintaan
{
"instance": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
},
{
// Optional
"mask": {
"image": {
"bytesBase64Encoded": string,
"gcsUri": string,
"mimeType": string
}
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Gunakan parameter berikut untuk model Imagen imagetext
.
Untuk mengetahui informasi selengkapnya, lihat Pemberian teks keterangan visual Vertex AI.
Parameter | Deskripsi | Nilai yang dapat diterima |
---|---|---|
image |
Gambar yang ingin Anda beri teks. Dapat berupa byte gambar Base64 atau Cloud Storage URI. | Gambar berenkode base64 (20 MB) |
mask |
Opsional. Menyamarkan gambar untuk pengeditan berbasis mask. | Gambar berenkode Base64 (20 MB) |
sampleCount |
Jumlah teks yang dihasilkan. | Nilai bilangan bulat: 1-3 |
seed |
Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi akan sama. | bilangan bulat |
storageUri |
Opsional. Lokasi Cloud Storage untuk menyimpan respons teks yang dihasilkan. | string |
language |
Opsional. Prompt (perintah) teks untuk memandu respons. | Enum String: en (default), de , fr , it , es |
Permintaan sampel
REST
Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.
Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:
- PROJECT_ID: ID project Google Cloud Anda.
- B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode base64. Batas ukuran: 10 MB.
- RESPONSE_COUNT: Jumlah teks gambar yang ingin Anda buat. Nilai bilangan bulat yang diterima: 1-3.
- LANGUAGE_CODE: Salah satu kode bahasa yang didukung. Bahasa yang didukung:
- Inggris (
en
) - Prancis (
fr
) - Jerman (
de
) - Italia (
it
) - Spanyol (
es
)
- Inggris (
Metode HTTP dan URL:
POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Isi JSON permintaan:
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Untuk mengirim permintaan, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. Respons akan menampilkan dua string prediksi.
Inggris (en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Spanyol (es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Isi respons
{
"predictions": [ string ]
}
Elemen respons | Deskripsi |
---|---|
predictions |
Daftar string teks yang merepresentasikan teks, yang diurutkan berdasarkan keyakinan. |
Contoh respons
{
"predictions": [
"text1",
"text2"
]
}