L'ensemble de données d'évaluation comprend généralement la réponse du modèle que vous souhaitez évaluer, les données d'entrée utilisées pour générer la réponse et, éventuellement, la réponse de vérité terrain. Le tableau suivant fournit les entrées requises pour construire l'ensemble de données d'évaluation.
Type d'entrée | Contenu du champ de saisie |
---|---|
réponse | Votre réponse d'inférence LLM à évaluer. |
instruction | Instruction d'inférence et requête envoyées à votre LLM. |
context | Contexte sur lequel se base votre réponse LLM. Pour la tâche de synthèse, il s'agit du texte résumé par le LLM. Pour les tâches de réponse à des questions, il s'agit des informations générales fournies au LLM pour répondre à la question ouverte. |
référence | Vérité terrain à laquelle comparer votre réponse LLM. |
baseline_response | Réponse d'inférence LLM de référence utilisée pour comparer votre réponse LLM lors de l'évaluation côte à côte. C'est ce qu'on appelle la réponse de référence. |
Les entrées requises pour l'ensemble de données d'évaluation diffèrent en fonction du paradigme d'évaluation et de la métrique que vous choisissez, ainsi que de la nature des tâches elles-mêmes. Pour obtenir la liste complète des métriques et de leurs entrées attendues, consultez la page Tâche et métriques.
Utiliser l'ensemble de données d'évaluation
Après avoir préparé l'ensemble de données d'évaluation, vous pouvez l'utiliser dans le SDK Python d'évaluation rapide ou via le service de pipelines d'évaluation. L'ensemble de données peut être importé à partir d'emplacements tels que Cloud Storage. Vertex AI fournit également des ensembles de données Kaggle prétraités pour vous permettre de configurer votre workflow d'évaluation avant que votre ensemble de données personnalisé ne soit prêt à être utilisé. Pour en savoir plus sur l'utilisation de l'ensemble de données, consultez la page Effectuer une évaluation.
Utiliser un ensemble de données personnalisé
Le service d'évaluation de l'IA générative peut utiliser votre ensemble de données d'évaluation de plusieurs manières. Notre SDK Python et nos pipelines ont des exigences différentes en ce qui concerne le format d'entrée de l'ensemble de données d'évaluation. Pour en savoir plus sur l'importation d'ensembles de données dans le SDK et les pipelines Python, consultez les exemples d'évaluation.
Fonctionnalités du service d'évaluation de l'IA générative | Emplacements et format des ensembles de données compatibles | Entrées requises |
---|---|---|
SDK Python | Fichier JSONL ou CSV stocké dans Cloud Storage Table BigQuery DataFrame Pandas |
Le format doit être cohérent avec les exigences d'entrée de métriques sélectionnées, conformément à la section Tâche et métriques. Ces colonnes peuvent être requises :
|
Pipeline basé sur le calcul | Fichier JSONL stocké dans Cloud Storage | input_text output_text |
Pipeline AutoSxS | Fichier JSONL stocké dans Cloud Storage Table BigQuery |
Le format doit être cohérent avec ce dont chaque modèle a besoin pour l'inférence, et les paramètres sont attendus par l'outil d'évaluation automatique pour la tâche d'évaluation. Les paramètres d'entrée sont les suivants :
|
Utiliser un ensemble de données Kaggle
Si votre ensemble de données personnalisé n'est pas prêt à être utilisé avec le service d'évaluation de l'IA générative, Vertex AI fournit des ensembles de données Kaggle prétraités.
Les ensembles de données sont compatibles avec des tâches telles que text generation
, summarization
et question answering
. Les ensembles de données sont transformés dans les formats suivants, qui peuvent être utilisés par le SDK et les pipelines Python.
Ensemble de données Kaggle | Tâches disponibles | Ensemble de données prétraité | URL Cloud Storage | Fonctionnalité compatible |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
Pipeline basé sur le calcul Pipeline AutoSxS SDK Python d'évaluation rapide |
Transcriptions médicales | Classification de texte | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
Pipeline basé sur le calcul Pipeline AutoSxS |
Lorsque vous utilisez les ensembles de données, vous pouvez commencer par échantillonner une petite partie des lignes afin de tester le workflow plutôt que d'utiliser l'ensemble de données complet. Les demandeurs payeurs sont activés pour les ensembles de données répertoriés dans le tableau, ce qui signifie que des frais de traitement des données et d'utilisation du réseau s'appliquent.
Étapes suivantes
- Essayez un exemple de notebook d'évaluation.
- Apprenez-en plus sur l'évaluation de l'IA générative.
- Apprenez-en plus sur l'évaluation en ligne à l'aide d'une évaluation rapide.
- Apprenez-en plus sur l'évaluation par paire basée sur un modèle avec le pipeline AutoSxS.
- Découvrez le pipeline d'évaluation basé sur le calcul.
- Découvrez comment régler un modèle de fondation.