Ensemble de données d'évaluation

L'ensemble de données d'évaluation comprend généralement la réponse du modèle que vous souhaitez évaluer, les données d'entrée utilisées pour générer la réponse et, éventuellement, la réponse de vérité terrain. Le tableau suivant fournit les entrées requises pour construire l'ensemble de données d'évaluation.

Type d'entrée	Contenu du champ de saisie
réponse	Votre réponse d'inférence LLM à évaluer.
instruction	Instruction d'inférence et requête envoyées à votre LLM.
context	Contexte sur lequel se base votre réponse LLM. Pour la tâche de synthèse, il s'agit du texte résumé par le LLM. Pour les tâches de réponse à des questions, il s'agit des informations générales fournies au LLM pour répondre à la question ouverte.
référence	Vérité terrain à laquelle comparer votre réponse LLM.
baseline_response	Réponse d'inférence LLM de référence utilisée pour comparer votre réponse LLM lors de l'évaluation côte à côte. C'est ce qu'on appelle la réponse de référence.

Les entrées requises pour l'ensemble de données d'évaluation diffèrent en fonction du paradigme d'évaluation et de la métrique que vous choisissez, ainsi que de la nature des tâches elles-mêmes. Pour obtenir la liste complète des métriques et de leurs entrées attendues, consultez la page Tâche et métriques.

Utiliser l'ensemble de données d'évaluation

Après avoir préparé l'ensemble de données d'évaluation, vous pouvez l'utiliser dans le SDK Python d'évaluation rapide ou via le service de pipelines d'évaluation. L'ensemble de données peut être importé à partir d'emplacements tels que Cloud Storage. Vertex AI fournit également des ensembles de données Kaggle prétraités pour vous permettre de configurer votre workflow d'évaluation avant que votre ensemble de données personnalisé ne soit prêt à être utilisé. Pour en savoir plus sur l'utilisation de l'ensemble de données, consultez la page Effectuer une évaluation.

Utiliser un ensemble de données personnalisé

Le service d'évaluation de l'IA générative peut utiliser votre ensemble de données d'évaluation de plusieurs manières. Notre SDK Python et nos pipelines ont des exigences différentes en ce qui concerne le format d'entrée de l'ensemble de données d'évaluation. Pour en savoir plus sur l'importation d'ensembles de données dans le SDK et les pipelines Python, consultez les exemples d'évaluation.

Fonctionnalités du service d'évaluation de l'IA générative	Emplacements et format des ensembles de données compatibles	Entrées requises
SDK Python	Fichier JSONL ou CSV stocké dans Cloud Storage Table BigQuery DataFrame Pandas	Le format doit être cohérent avec les exigences d'entrée de métriques sélectionnées, conformément à la section Tâche et métriques. Ces colonnes peuvent être requises : `response` `reference` `instruction` `context`
Pipeline basé sur le calcul	Fichier JSONL stocké dans Cloud Storage	`input_text` `output_text`
Pipeline AutoSxS	Fichier JSONL stocké dans Cloud Storage Table BigQuery	Le format doit être cohérent avec ce dont chaque modèle a besoin pour l'inférence, et les paramètres sont attendus par l'outil d'évaluation automatique pour la tâche d'évaluation. Les paramètres d'entrée sont les suivants : Colonnes des identifiants Texte d'entrée pour l'inférence ou les prédictions prégénérées Paramètres de requête de l'outil d'évaluation automatique

Utiliser un ensemble de données Kaggle

Si votre ensemble de données personnalisé n'est pas prêt à être utilisé avec le service d'évaluation de l'IA générative, Vertex AI fournit des ensembles de données Kaggle prétraités. Les ensembles de données sont compatibles avec des tâches telles que text generation, summarization et question answering. Les ensembles de données sont transformés dans les formats suivants, qui peuvent être utilisés par le SDK et les pipelines Python.

Ensemble de données Kaggle	Tâches disponibles	Ensemble de données prétraité	URL Cloud Storage	Fonctionnalité compatible
BillSum	`General text generation` `Summarization`	summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl	gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl	Pipeline basé sur le calcul Pipeline AutoSxS SDK Python d'évaluation rapide
Transcriptions médicales	Classification de texte	medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl	gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl	Pipeline basé sur le calcul Pipeline AutoSxS

Lorsque vous utilisez les ensembles de données, vous pouvez commencer par échantillonner une petite partie des lignes afin de tester le workflow plutôt que d'utiliser l'ensemble de données complet. Les demandeurs payeurs sont activés pour les ensembles de données répertoriés dans le tableau, ce qui signifie que des frais de traitement des données et d'utilisation du réseau s'appliquent.

Étapes suivantes

Essayez un exemple de notebook d'évaluation.
Apprenez-en plus sur l'évaluation de l'IA générative.
Apprenez-en plus sur l'évaluation en ligne à l'aide d'une évaluation rapide.
Apprenez-en plus sur l'évaluation par paire basée sur un modèle avec le pipeline AutoSxS.
Découvrez le pipeline d'évaluation basé sur le calcul.
Découvrez comment régler un modèle de fondation.