Le seguenti sezioni forniscono informazioni sui requisiti dei dati, sui file di schema e sul formato dei file di importazione dei dati (JSONL e CSV) definiti dallo schema.
In alternativa, puoi importare i video che non sono stati annotati e annotarli in un secondo momento utilizzando la console Google Cloud (vedi Etichettatura utilizzando la console Google Cloud).
Requisiti dei dati
I seguenti requisiti si applicano ai set di dati utilizzati per addestrare AutoML o i modelli con addestramento personalizzato.
Vertex AI supporta i seguenti formati video per addestrare il modello o richiedere una previsione (annotazione di un video).
- .MOV
- .MPEG4
- .MP4
- AVI
Per visualizzare i contenuti video nella console web o per annotare un video, il video deve essere in un formato supportato in modo nativo dal tuo browser. Poiché non tutti i browser gestiscono i contenuti .MOV o .AVI in modo nativo, ti consigliamo di utilizzare il formato video .MPEG4 o .MP4.
La dimensione massima del file è 50 GB (fino a 3 ore di durata). I singoli file video con timestamp non corretti o vuoti nel contenitore non sono supportati.
Il numero massimo di etichette in ogni set di dati è limitato a 1000.
Puoi assegnare etichette "ML_USE" ai video nei file di importazione. Al momento della formazione, puoi scegliere di utilizzare queste etichette per suddividere i video e le annotazioni corrispondenti in set di "addestramento" o "test". Per la classificazione dei video, tieni presente quanto segue:
- Per l'addestramento del modello sono necessarie almeno due classi diverse. Ad esempio, "notizie" e "MTV" oppure "gioco" e "altri".
- Valuta la possibilità di includere una classe "None_of_the_sopra" e segmenti video che non corrispondono a nessuna delle classi definite.
Best practice per i dati video utilizzati per addestrare i modelli AutoML
Le seguenti pratiche si applicano ai set di dati utilizzati per addestrare i modelli AutoML.
I dati di addestramento devono essere il più vicini possibile a quelli su cui fare previsioni. Ad esempio, se il tuo caso d'uso riguarda video sfocati e a bassa risoluzione (ad esempio da una videocamera di sicurezza), i dati di addestramento dovrebbero essere composti da video sfocati e a bassa risoluzione. In generale, valutate anche la possibilità di fornire più angolazioni, risoluzioni e sfondi per i video di addestramento.
I modelli Vertex AI non sono in grado di prevedere etichette che gli esseri umani non possono assegnare. Se non è possibile addestrare una persona ad assegnare etichette guardando il video per 1-2 secondi, è probabile che il modello non possa essere addestrato per farlo.
Il modello funziona meglio quando ci sono al massimo 100 volte più video per l'etichetta più comune che per l'etichetta meno comune. Ti consigliamo di rimuovere le etichette a bassa frequenza. Per la classificazione dei video, il numero consigliato di video di addestramento per etichetta è di circa 1000. Il valore minimo per etichetta è 10 o 50 per i modelli avanzati. In generale, occorrono più esempi per etichetta per addestrare modelli con più etichette per video e i punteggi risultanti sono più difficili da interpretare.
File di schema
Utilizza il seguente file di schema accessibile pubblicamente per creare il file JSON per l'importazione delle annotazioni. Questo file di schema determina il formato dei file di input di dati. La struttura del file segue il test dello schema di OpenAPI.
File dello schema di classificazione video:
gs.google-cloud-aiplatform/schema/dataset/ioformat/video_classification_io_format_1.0.0.yaml
File schema completo
title: VideoClassification description: > Import and export format for importing/exporting videos together with classification annotations with time segment. Can be used in Dataset.import_schema_uri field. type: object required: - videoGcsUri properties: videoGcsUri: type: string description: > A Cloud Storage URI pointing to a video. Up to 50 GB in size and up to 3 hours in duration. Supported file mime types: `video/mp4`, `video/avi`, `video/quicktime`. timeSegmentAnnotations: type: array description: > Multiple classification annotations. Each on a time segment of the video. items: type: object description: Annotation with a time segment on media (e.g., video). properties: displayName: type: string description: > It will be imported as/exported from AnnotationSpec's display name. startTime: type: string description: > The start of the time segment. Expressed as a number of seconds as measured from the start of the video, with "s" appended at the end. Fractions are allowed, up to a microsecond precision. default: 0s endTime: type: string description: > The end of the time segment. Expressed as a number of seconds as measured from the start of the video, with "s" appended at the end. Fractions are allowed, up to a microsecond precision, and "Infinity" is allowed, which corresponds to the end of the video. default: Infinity annotationResourceLabels: description: Resource labels on the Annotation. type: object additionalProperties: type: string dataItemResourceLabels: description: Resource labels on the DataItem. type: object additionalProperties: type: string
File di input
Il formato dei dati di addestramento per la classificazione dei video è il seguente.
Per importare i dati, crea un file JSONL o CSV.
JSONL
JSON su ogni riga:
Per informazioni dettagliate, consulta il file Schema di classificazione (globale).
{ "videoGcsUri": "gs://bucket/filename.ext", "timeSegmentAnnotations": [{ "displayName": "LABEL", "startTime": "start_time_of_segment", "endTime": "end_time_of_segment" }], "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "train|test" } }
Esempio di JSONL - Classificazione del video:
{"videoGcsUri": "gs://demo/video1.mp4", "timeSegmentAnnotations": [{"displayName": "cartwheel", "startTime": "1.0s", "endTime": "12.0s"}], "dataItemResourceLabels": {"aiplatform.googleapis.com/ml_use": "training"}} {"videoGcsUri": "gs://demo/video2.mp4", "timeSegmentAnnotations": [{"displayName": "swing", "startTime": "4.0s", "endTime": "9.0s"}], "dataItemResourceLabels": {"aiplatform.googleapis.com/ml_use": "test"}} ...
CSV
Formato di una riga nel file CSV:
[ML_USE,]VIDEO_URI,LABEL,START,END
Elenco di colonne
-
ML_USE
(facoltativo). Per la suddivisione dei dati durante l'addestramento di un modello. Utilizza FORMAZIONE o TEST. VIDEO_URI
. Questo campo contiene l'URI Cloud Storage del video. Gli URI Cloud Storage sono sensibili alle maiuscole.LABEL
. Le etichette devono iniziare con una lettera e contenere solo lettere, numeri e trattini bassi. Puoi specificare più etichette per un video aggiungendo nel file CSV più righe che identificano lo stesso segmento video, con un'etichetta diversa per ogni riga.START,END
. Queste due colonne, START e END, rispettivamente, identificano i punti di inizio e di fine del segmento video da analizzare, in secondi. L'ora di inizio deve essere successiva all'ora di fine. Entrambi i valori devono essere non negativi e nell'intervallo di tempo del video. Ad esempio,0.09845,1.36005
. Per utilizzare tutti i contenuti del video, specifica un'ora di inizio pari a0
e un'ora di fine della durata totale del video o di "inf". Ad esempio:0,inf
.
CSV di esempio - Classificazione con etichetta singola
Etichetta singola sullo stesso segmento video:
TRAINING,gs://YOUR_VIDEO_PATH/vehicle.mp4,mustang,0,5.4 ...
CSV di esempio - più etichette:
Più etichette per lo stesso segmento di video:
gs://YOUR_VIDEO_PATH/vehicle.mp4,fiesta,0,8.285 gs://YOUR_VIDEO_PATH/vehicle.mp4,ranger,0,8.285 gs://YOUR_VIDEO_PATH/vehicle.mp4,explorer,0,8.285 ...
CSV di esempio - nessuna etichetta:
Puoi anche fornire i video nel file di dati senza specificare alcuna etichetta. Devi quindi utilizzare la console Google Cloud per applicare le etichette ai dati prima di addestrare il modello. Per farlo, devi solo fornire l'URI Cloud Storage per il video seguito da tre virgole, come mostrato nell'esempio seguente.
gs://YOUR_VIDEO_PATH/vehicle.mp4,,, ...