Ensemble de données d'évaluation

L'ensemble de données d'évaluation comprend généralement la réponse du modèle que vous souhaitez évaluer, les données d'entrée utilisées pour générer la réponse et, éventuellement, la réponse de vérité terrain. Le tableau suivant fournit les entrées requises pour construire l'ensemble de données d'évaluation.

Type d'entrée Contenu du champ de saisie
réponse Votre réponse d'inférence LLM à évaluer.
instruction Instruction d'inférence et requête envoyées à votre LLM.
context Contexte sur lequel se base votre réponse LLM. Pour la tâche de synthèse, il s'agit du texte résumé par le LLM. Pour les tâches de réponse à des questions, il s'agit des informations générales fournies au LLM pour répondre à la question ouverte.
référence Vérité terrain à laquelle comparer votre réponse LLM.
baseline_response Réponse d'inférence LLM de référence utilisée pour comparer votre réponse LLM lors de l'évaluation côte à côte. C'est ce qu'on appelle la réponse de référence.

Les entrées requises pour l'ensemble de données d'évaluation diffèrent en fonction du paradigme d'évaluation et de la métrique que vous choisissez, ainsi que de la nature des tâches elles-mêmes. Pour obtenir la liste complète des métriques et de leurs entrées attendues, consultez la page Tâche et métriques.

Utiliser l'ensemble de données d'évaluation

Après avoir préparé l'ensemble de données d'évaluation, vous pouvez l'utiliser dans le SDK Python d'évaluation rapide ou via le service de pipelines d'évaluation. L'ensemble de données peut être importé à partir d'emplacements tels que Cloud Storage. Vertex AI fournit également des ensembles de données Kaggle prétraités pour vous permettre de configurer votre workflow d'évaluation avant que votre ensemble de données personnalisé ne soit prêt à être utilisé. Pour en savoir plus sur l'utilisation de l'ensemble de données, consultez la page Effectuer une évaluation.

Utiliser un ensemble de données personnalisé

Le service d'évaluation de l'IA générative peut utiliser votre ensemble de données d'évaluation de plusieurs manières. Notre SDK Python et nos pipelines ont des exigences différentes en ce qui concerne le format d'entrée de l'ensemble de données d'évaluation. Pour en savoir plus sur l'importation d'ensembles de données dans le SDK et les pipelines Python, consultez les exemples d'évaluation.

Fonctionnalités du service d'évaluation de l'IA générative Emplacements et format des ensembles de données compatibles Entrées requises
SDK Python Fichier JSONL ou CSV stocké dans Cloud Storage

Table BigQuery

DataFrame Pandas
Le format doit être cohérent avec les exigences d'entrée de métriques sélectionnées, conformément à la section Tâche et métriques. Ces colonnes peuvent être requises :
  • response
  • reference
  • instruction
  • context
Pipeline basé sur le calcul Fichier JSONL stocké dans Cloud Storage input_text
output_text
Pipeline AutoSxS Fichier JSONL stocké dans Cloud Storage

Table BigQuery
Le format doit être cohérent avec ce dont chaque modèle a besoin pour l'inférence, et les paramètres sont attendus par l'outil d'évaluation automatique pour la tâche d'évaluation. Les paramètres d'entrée sont les suivants :
  • Colonnes des identifiants
  • Texte d'entrée pour l'inférence ou les prédictions prégénérées
  • Paramètres de requête de l'outil d'évaluation automatique

Utiliser un ensemble de données Kaggle

Si votre ensemble de données personnalisé n'est pas prêt à être utilisé avec le service d'évaluation de l'IA générative, Vertex AI fournit des ensembles de données Kaggle prétraités. Les ensembles de données sont compatibles avec des tâches telles que text generation, summarization et question answering. Les ensembles de données sont transformés dans les formats suivants, qui peuvent être utilisés par le SDK et les pipelines Python.

Ensemble de données Kaggle Tâches disponibles Ensemble de données prétraité URL Cloud Storage Fonctionnalité compatible
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Pipeline basé sur le calcul

Pipeline AutoSxS

SDK Python d'évaluation rapide
Transcriptions médicales Classification de texte medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Pipeline basé sur le calcul

Pipeline AutoSxS

Lorsque vous utilisez les ensembles de données, vous pouvez commencer par échantillonner une petite partie des lignes afin de tester le workflow plutôt que d'utiliser l'ensemble de données complet. Les demandeurs payeurs sont activés pour les ensembles de données répertoriés dans le tableau, ce qui signifie que des frais de traitement des données et d'utilisation du réseau s'appliquent.

Étapes suivantes