Einführung in tabellarische Daten

Dies ist eine Einführung in tabellarische Datenwege mit AutoML. Informationen zu den wichtigsten Unterschieden zwischen AutoML und benutzerdefiniertem Training finden Sie unter Trainingsmethode auswählen.

Anwendungsfälle für tabellarische Daten

Stellen Sie sich vor, Sie arbeiten in der Marketingabteilung eines digitalen Einzelhändlers. Sie und Ihr Team erstellen ein personalisiertes E-Mail-Programm, das auf Kunden-Personas basiert. Sie haben die Personas erstellt und die Marketing-E-Mails sind einsatzbereit. Jetzt müssen Sie ein System erstellen, das Kunden je nach ihren Einzelhandelsvorlieben und ihrem Kaufverhalten in die einzelnen Personas einsortiert, auch wenn sie als Kunden neu sind. Sie möchten auch deren Ausgabegewohnheiten vorhersagen, damit Sie die optimale Zeit zum Versenden der E-Mails finden, um die Kundeninteraktion zu maximieren.
Einführung in Tabellen

Da Sie ein digitaler Einzelhändler sind, haben Sie Daten zu Ihren Kunden und den von ihnen getätigten Einkäufen. Doch wie steht es mit Neukunden? Herkömmliche Ansätze können diese Werte für bestehende Kunden mit langer Kaufhistorie berechnen, eignen sich jedoch nicht für Kunden mit wenigen historischen Daten. Was wäre, wenn Sie ein System erstellen könnten, um diese Werte vorherzusagen und die Geschwindigkeit zu erhöhen, mit der Sie personalisierte Marketingprogramme für alle Ihre Kunden bereitstellen?

Genau auf diesem Gebiet sind maschinelles Lernen (ML) und Vertex AI sehr gut geeignet.

In diesem Leitfaden wird erläutert, wie Vertex AI für AutoML-Datasets und -Modelle funktioniert, und welche Probleme mit Vertex AI lösbar sind.

Wie funktioniert Vertex AI?

Grafische Darstellung eines einfachen neuronalen Netzwerks Vertex AI nutzt überwachtes maschinelles Lernen, um ein gewünschtes Ergebnis zu erzielen. Je nach Datentyp und Anwendungsfall ändern sich die Eigenschaften des Algorithmus und der Trainingsmethoden. Beim maschinellen Lernen gibt es viele verschiedene Unterkategorien, die auf das zu lösende Problem abgestimmt sind und jeweils mit unterschiedlichen Beschränkungen funktionieren.

Sie trainieren ein Modell für maschinelles Lernen mit Beispieldaten. Vertex AI verwendet tabellarische (strukturierte) Daten, um ein Modell für maschinelles Lernen so zu trainieren, dass es Vorhersagen für neue Daten treffen kann. Für eine Spalte aus Ihrem Dataset, die als Ziel bezeichnet wird, soll das Modell dann die Vorhersage treffen. Einige der anderen Datenspalten sind Eingaben (sogenannte Features), aus denen das Modell Muster lernt. Sie können dieselben Eingabe-Features zum Erstellen mehrerer Arten von Modellen verwenden, indem Sie einfach die Zielspalte und die Trainingsoptionen ändern. Im E-Mail-Marketing-Beispiel bedeutet dies, dass Sie Modelle mit denselben Eingabefeatures, aber mit unterschiedlichen Zielvorhersagen erstellen können. Ein Modell könnte die Persönlichkeit eines Kunden (ein kategoriales Ziel) vorhersagen, ein anderes Modell die monatlichen Ausgaben des Kunden (ein numerisches Ziel) und ein weiteres Modell könnte wiederum die tägliche Nachfrage nach Ihren Produkten für die nächsten drei Monate (Serie numerischer Ziele) vorhersagen.
Funktionsweise von AutoML Tables

Vertex-AI-Workflow

Vertex AI verwendet einen Standard-Workflow für maschinelles Lernen:

  1. Daten erfassen: Bestimmen Sie abhängig vom gewünschten Ergebnis die Daten, die Sie zum Trainieren und Testen Ihres Modells benötigen.
  2. Daten vorbereiten: Achten Sie darauf, dass Ihre Daten ordnungsgemäß formatiert und mit Labels versehen sind.
  3. Trainieren: Legen Sie Parameter fest und erstellen Sie Ihr Modell.
  4. Auswerten: Überprüfen Sie die Modellmesswerte.
  5. Bereitstellen und Vorhersagen: Machen Sie Ihr Modell für die Verwendung verfügbar.

Bevor Sie jedoch mit dem Erfassen von Daten beginnen, müssen Sie über das Problem nachdenken, das Sie lösen möchten. Dadurch werden Ihre Datenanforderungen bestimmt.

Datenvorbereitung

Anwendungsfall bewerten

Beginnen Sie mit dem Problem: Was möchten Sie erreichen?

Welche Art von Daten befinden sich in der Zielspalte? Auf wie viele Daten haben Sie Zugriff? Abhängig von Ihren Antworten erstellt Vertex AI das erforderliche Modell, das Ihren Anwendungsfall lösen soll:

  • Binärklassifizierungsmodelle sagen ein binäres Ergebnis vorher (eine von zwei Klassen). Verwenden Sie diesen Modelltyp für Ja- oder Nein-Fragen. Beispiel: Sie können ein binäres Klassifizierungsmodell erstellen, um vorherzusagen, ob ein Kunde ein Abo erwerben würde. Im Allgemeinen erfordert ein binäres Klassifizierungsproblem weniger Daten als andere Modelltypen.
  • Klassifizierungsmodelle mit mehreren Klassen sagen eine Klasse aus drei oder mehr gesonderten Klassen vorher. Verwenden Sie diesen Modelltyp für die Kategorisierung. Beispiel: Als Einzelhändler möchten Sie ein Klassifizierungsmodell mit mehreren Klassen erstellen, um Kunden in verschiedene Personen zu unterteilen.
  • Regressionsmodelle sagen einen kontinuierlichen Wert voraus. Beispiel: Als Einzelhändler möchten Sie ein Regressionsmodell erstellen, um vorherzusagen, wie viel ein Kunde im nächsten Monat ausgeben wird.
  • Prognosemodelle sagen eine Folge von Werten vorher. Beispiel: Als Einzelhändler möchten Sie die tägliche Nachfrage Ihrer Produkte für die nächsten drei Monate prognostizieren, damit Sie Inventarbestände im Voraus rechtzeitig planen können.

Die Prognose für tabellarische Daten unterscheidet sich auf zwei wichtige Arten von Klassifizierungen und Regressionen:

  • Bei der Klassifizierung und Regression hängt der vorhergesagte Wert des Ziels nur von den Werten der Featurespalten in derselben Zeile ab. Bei der Prognose hängen die vorhergesagten Werte auch von den Kontextwerten des Ziels und der Merkmale ab.

  • Bei Regressions- und Klassifizierungsproblemen ist die Ausgabe ein Wert. Bei Prognoseproblemen ist die Ausgabe eine Abfolge von Werten.

Daten erfassen

Nachdem Sie Ihren Anwendungsfall festgelegt haben, müssen Sie die Daten erfassen, mit denen Sie das gewünschte Modell erstellen können.

Test-Dataset Nachdem Sie Ihren Anwendungsfall festgelegt haben, müssen Sie Daten erfassen, um Ihr Modell zu trainieren. Datenbeschaffung und -vorbereitung sind wichtige Schritte beim Erstellen eines Modells für maschinelles Lernen. Die Daten, die Ihnen zur Verfügung stehen, haben einen Einfluss darauf, welche Art von Problemen Sie lösen können. Wie viele Daten stehen Ihnen zur Verfügung? Sind Ihre Daten für die Fragen relevant, die Sie beantworten möchten? Beachten Sie beim Erfassen der Daten die folgenden wichtigen Überlegungen.

Relevante Funktionen auswählen

Ein Feature ist ein Eingabeattribut, das für das Modelltraining verwendet wird. Anhand von Features identifiziert Ihr Modell Muster, um Vorhersagen zu treffen, daher müssen die Features für Ihr Problem relevant sein. Wenn Sie beispielsweise ein Modell erstellen möchten, das vorhersagt, ob eine Kreditkartentransaktion betrügerisch ist oder nicht, müssen Sie ein Dataset erstellen, das Transaktionsdetails wie den Käufer, den Verkäufer, den Betrag, das Datum und die Uhrzeit sowie die gekauften Artikel enthält. Andere hilfreiche Features wären historische Informationen über den Käufer und den Verkäufer und wie oft der gekaufte Artikel im Zusammenhang mit einem Betrugsfall stand. Welche anderen Features könnten relevant sein?

Betrachten Sie den Anwendungsfall für E-Mail-Marketing im Einzelhandel aus der Einleitung. Hier sind einige Feature-Spalten, die Sie möglicherweise benötigen:

  • Liste der gekauften Artikel (einschließlich Marken, Kategorien, Preise, Rabatte)
  • Anzahl der gekauften Artikel (letzter Tag, letzte Woche, letzter Monat, letztes Jahr)
  • Ausgegebener Geldbetrag (letzter Tag, letzte Woche, letzter Monat, letztes Jahr)
  • Gesamtzahl der täglich verkauften Artikel
  • Gesamtzahl der Artikel auf Lager pro Tag
  • Ob Sie eine Werbeaktion für einen bestimmten Tag durchführen
  • Bekanntes demografisches Profil des Käufers

Genügend Daten einbeziehen

Genügend Daten einbeziehen Generell gilt: Je mehr Trainingsbeispiele Sie haben, desto besser das Ergebnis. Die Menge der erforderlichen Beispieldaten hängt auch von der Komplexität des Problems ab, das Sie lösen möchten. Im Vergleich zu einem Modell mit mehreren Klassen benötigen Sie für ein genaues binäres Klassifizierungsmodell nicht so viele Daten, da es weniger kompliziert ist, eine Klasse aus zwei statt aus vielen Klassen vorherzusagen.

Eine perfekte Formel gibt es nicht, aber Empfehlungen für die Mindestanzahl von Beispieldaten.

  • Klassifizierungsproblem: 50 Zeilen x die Anzahl der Features
  • Prognoseproblem:
    • 5.000 Zeilen x die Anzahl der Features
    • 10 eindeutige Werte in der ID-Spalte der Zeitreihe x die Anzahl der Features
  • Regressionsproblem: 200 x die Anzahl der Features

Variation erfassen

Ihr Dataset sollte die Vielfalt Ihres Problembereichs erfassen. Je vielfältiger die Beispiele sind, mit denen ein Modell während des Trainings zu tun hat, umso schneller kann es neue oder weniger verbreitete Beispiele verallgemeinern. Stellen Sie sich vor, Ihr Einzelhandelsmodell würde nur mit Kaufdaten aus dem Winter trainiert. Wäre dieses Modell in der Lage, Kleidungspräferenzen oder das Kaufverhalten im Sommer erfolgreich vorherzusagen?

Daten vorbereiten

Daten vorbereiten Nachdem Sie die verfügbaren Daten identifiziert haben, müssen Sie nachprüfen, ob diese für das Training bereit sind. Sollten die Daten verzerrt sein oder fehlende oder fehlerhafte Werte enthalten, hat dies Auswirkungen auf die Qualität des Modells. Beachten Sie Folgendes, bevor Sie mit dem Training des Modells beginnen. Weitere Informationen

Datenlecks und Abweichungen zwischen Training und Bereitstellung

Datenverluste treten auf, wenn Sie während des Trainings Eingabe-Features verwenden, die Informationen über das Ziel, das Sie vorherzusagen versuchen, "durchsickern lassen", die nicht verfügbar sind, wenn das Modell tatsächlich bereitgestellt wird. Dies lässt sich erkennen, wenn ein Feature, das stark mit der Zielspalte korreliert, als eines der Eingabe-Features enthalten ist. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob sich ein Kunde im nächsten Monat für ein Abo anmeldet und eines der Eingabe-Features dabei eine zukünftige Abo-Zahlung von diesem Kunden ist. Dies kann zwar eine starke Modellleistung beim Testen bewirken, jedoch nicht bei der Bereitstellung in der Produktion, da die Informationen zu zukünftigen Abo-Zahlungen zum Zeitpunkt der Bereitstellung nicht mehr verfügbar sind.

Abweichungen zwischen Training und Bereitstellung liegen vor, wenn sich die während der Trainingszeit verwendeten Eingabe-Features von denen unterscheiden, die dem Modell zum Zeitpunkt der Bereitstellung zur Verfügung gestellt werden, was eine schlechte Modellqualität in der Produktion zur Folge hat. Ein Beispiel hierfür wäre, wenn Sie ein Modell zur Vorhersage von stündlichen Temperaturen erstellen, es jedoch mit Daten trainieren, die nur wöchentliche Temperaturen enthalten. Ein weiteres Beispiel: Wenn Sie zur Prognose von Schulabbrüchen in den Trainingsdaten immer die Noten eines Schülers mitliefern, diese Informationen zum Zeitpunkt der Bereitstellung jedoch nicht zur Verfügung stehen.

Das Verständnis Ihrer Trainingsdaten ist wichtig, um Datenverluste und Abweichungen zwischen Training und Bereitstellung zu vermeiden:

  • Stellen Sie vor der Verwendung von Daten sicher, dass Sie wissen, was die Daten bedeuten und ob Sie sie als Feature verwenden sollten.
  • Prüfen Sie die Korrelation auf dem Tab "Train" (Trainieren). Hohe Korrelationen sollten zur Überprüfung markiert werden.
  • Abweichungen zwischen Training und Bereitstellung: Achten Sie darauf, dass Sie nur Eingabe-Features für das Modell zur Verfügung stellen, die zum Zeitpunkt der Bereitstellung in genau derselben Form verfügbar sind.

Fehlende, unvollständige und inkonsistente Daten bereinigen

Es ist normal, dass Beispieldaten fehlende und unrichtige Werte enthalten. Nehmen Sie sich Zeit, um die Qualität der Daten zu überprüfen und, wenn möglich, zu verbessern, bevor Sie sie für das Training verwenden. Je mehr Werte fehlen, desto weniger nützlich sind die Daten für das Training eines Modells für maschinelles Lernen.

  • Prüfen Sie Ihre Daten auf fehlende Werte und korrigieren Sie sie, falls möglich. Oder lassen Sie den Wert leer, wenn für die Spalte Nullwerte zulässig sind. Vertex AI kann zwar fehlende Werte verarbeiten, Sie erhalten jedoch mit höherer Wahrscheinlichkeit optimale Ergebnisse, wenn alle Werte verfügbar sind.
  • Prüfen Sie für die Prognose, ob das Intervall zwischen den Trainingszeilen konsistent ist. Vertex AI kann zwar fehlende Werte hinzu rechnen, Sie erhalten jedoch mit höherer Wahrscheinlichkeit optimale Ergebnisse, wenn alle Werte verfügbar sind.
  • Bereinigen Sie Ihre Daten, indem Sie Datenfehler oder falsch positive Ergebnisse korrigieren oder löschen. Machen Sie die Daten konsistent: Überprüfen Sie Rechtschreibung, Abkürzungen und Formatierung.

Daten nach dem Import analysieren

Vertex AI bietet einen Überblick über Ihr Dataset, nachdem es importiert wurde. Prüfen Sie für das importierte Dataset, ob jede Spalte den richtigen Variablentyp hat. Vertex AI erkennt den Variablentyp automatisch anhand der Spaltenwerte. Dennoch sollten Sie diese immer einzeln überprüfen. Kontrollieren Sie außerdem bei jeder Spalte die Null-Zulässigkeit, die festlegt, ob eine Spalte fehlende Werte oder NULL-Werte enthalten darf.

Modelltraining

Nachdem das Dataset importiert wurde, trainieren Sie im nächsten Schritt ein Modell. Vertex AI generiert mit den Standardeinstellungen für das Training ein zuverlässiges Modell für maschinelles Lernen. Möglicherweise möchten Sie jedoch einige Parameter basierend auf Ihrem Anwendungsfall anpassen.

Versuchen Sie, so viele Feature-Spalten wie möglich für das Training auszuwählen, prüfen Sie jedoch jede einzelne, damit sie auch bestimmt für das Training geeignet ist. Beachten Sie bei der Auswahl der Features Folgendes:

  • Wählen Sie keine Feature-Spalten aus, die einen störenden Einfluss haben können, wie zufällig zugewiesene ID-Spalten mit einem eindeutigen Wert für jede Zeile.
  • Machen Sie sich unbedingt mit den einzelnen Featurespalten und ihren Werten vertraut.
  • Wenn Sie mehrere Modelle aus einem Dataset erstellen, entfernen Sie Zielspalten, die nicht Teil des aktuellen Vorhersageproblems sind.
  • Beachten Sie die Fairnessprinzipien: Trainieren Sie Ihr Modell mit einem Feature, das zu voreingenommenen oder unfairen Entscheidungen für marginalisierte Gruppen führen kann?

So nutzt Vertex AI Ihr Dataset

Das Dataset wird in Trainings-, Validierungs- und Test-Datasets unterteilt. Die von Vertex AI standardmäßig angewendete Aufteilung hängt vom Modelltyp ab, den Sie trainieren. Bei Bedarf können Sie die Aufteilungen auch angeben (manuelle Aufteilungen). Weitere Informationen finden Sie unter Datenaufteilungen für AutoML-Modelle. Trainings-, Validierungs- und Test-Datasets

Trainings-Dataset

Trainings-Dataset Die meisten Daten sollten im Trainings-Dataset enthalten sein. Das sind die Daten, die das Modell während des Trainings "sieht". Damit werden die Parameter des Modells erlernt, vor allem die Gewichtung der Verbindungen zwischen den Knoten des neuronalen Netzes.

Validierungs-Dataset

Validierungs-Dataset Während des Trainingsvorgangs wird auch das Validierungs-Dataset, oft als "dev"-Dataset bezeichnet, verwendet. Das Framework für das Modelllernen bindet bei jeder Iteration des Trainingsvorgangs Trainingsdaten ein. Anschließend optimiert es mit dem Validierungs-Dataset anhand der tatsächlichen Leistung des Modells dessen sogenannte Hyperparameter. Hyperparameter sind Variablen, die die Struktur des Modells festlegen. Sollten Sie versucht haben, die Hyperparameter mit dem Trainings-Dataset zu optimieren, ist es sehr wahrscheinlich, dass sich das Modell zu sehr auf die Trainingsdaten fokussiert und dass die verallgemeinernde Einordnung von Beispielen, die nicht genau mit diesen Daten übereinstimmen, schwieriger wird. Durch die Verwendung eines neuen Datasets zur Feinabstimmung der Modellstruktur sind bessere Verallgemeinerungen für Ihr Modell möglich.

Test-Dataset

Test-Dataset Das Test-Dataset wird völlig unabhängig vom Trainingsvorgang eingesetzt. Nachdem das Training des Modells abgeschlossen ist, nutzt Vertex AI das Test-Dataset als komplett neue Aufgabe für das Modell. Anhand der Leistung des Modells beim Test-Dataset lässt sich relativ genau absehen, wie gut es später mit Realdaten funktionieren wird.

 

Modell bewerten, testen und bereitstellen

Modell evaluieren

Modell evaluieren Im Anschluss an das Modelltraining erhalten Sie eine Zusammenfassung der Leistung. Modellbewertungsmesswerte basieren darauf, inwieweit das Modell bei einem Teil des Datasets (dem Test-Dataset) die Leistungserwartungen erfüllen konnte. Bei der Entscheidung, ob das Modell bereit für den Einsatz bei realen Daten ist, müssen Sie einige wichtige Messwerte und Konzepte berücksichtigen.

Klassifizierungsmesswerte

Score-Schwellenwert

Stellen Sie sich ein Modell für maschinelles Lernen vor, das vorhersagt, ob ein Kunde im nächsten Jahr eine Jacke kaufen wird. Wie sicher muss das Modell sein, bevor es voraussagen kann, dass ein bestimmter Kunde eine Jacke kauft? In Klassifizierungsmodellen wird jeder Vorhersage ein Konfidenzwert zugewiesen – eine numerische Bewertung der Gewissheit des Modells, dass die vorhergesagte Klasse korrekt ist. Der Score-Schwellenwert ist die Zahl, die festlegt, wann eine bestimmte Bewertung in eine Ja- oder Nein-Entscheidung umgewandelt wird. Dies ist der Wert, bei dem Ihr Modell sagt: "Ja, dieser Konfidenzwert ist hoch genug, um zu der Schlussfolgerung zu gelangen, dass dieser Kunde im nächsten Jahr einen Mantel kaufen wird."
Schwellenwerte auswerten

Wenn der Score-Schwellenwert niedrig ist, besteht für das Modell das Risiko einer Fehlklassifizierung. Aus diesem Grund sollte der Score-Schwellenwert auf einem bestimmten Anwendungsfall basieren.

Vorhersageergebnisse

Nach Anwenden des Score-Schwellenwerts fallen die von Ihrem Modell gemachten Vorhersagen in eine von vier Kategorien. Zum Verständnis dieser Kategorien stellen Sie sich noch einmal ein binäres Klassifizierungsmodell für den Jackenkauf vor. In diesem Beispiel ist die positive Klasse (also das, was das Modell vorherzusagen versucht), dass der Kunde im nächsten Jahr eine Jacke kaufen wird.

  • Richtig positiv: Das Modell sagt die positive Klasse richtig vorher. Das Modell sagte richtig vorher, dass ein Kunde eine Jacke kaufen würde.
  • Falsch positiv: Das Modell sagt die positive Klasse falsch vorher. Das Modell sagte vorher, dass ein Kunde eine Jacke kaufen würde, aber das tat er nicht.
  • Richtig negativ: Das Modell sagt die negative Klasse richtig vorher. Das Modell sagte richtig vorher, dass ein Kunde keine Jacke kaufen würde.
  • Falsch negativ: Das Modell sagt fälschlicherweise eine negative Klasse vorher. Das Modell sagte vorher, dass ein Kunde keine Jacke kaufen würde, doch er hat eine gekauft.

Vorhersageergebnisse

Genauigkeit und Trefferquote

Anhand von Genauigkeit und Trefferquote können Sie analysieren, wie gut das Modell Informationen erfasst und welche es auslässt. Weitere Informationen zu Genauigkeit und Trefferquote

  • Genauigkeit ist der Anteil der positiven Vorhersagen, die korrekt waren. Bei welchem Anteil aller vorhergesagten Kundeneinkäufe gab es tatsächlich Einkäufe?
  • Trefferquote ist der Anteil an Zeilen mit diesem Label, die das Modell korrekt vorhergesagt hat. Welcher Anteil von allen Kundeneinkäufen, die man hätte identifizieren können, wurde tatsächlich identifiziert?

Abhängig von Ihrem Anwendungsfall müssen Sie möglicherweise entweder die Genauigkeit oder die Trefferquote optimieren.

Weitere Klassifizierungsmesswerte
  • AUC PR: der Bereich unter der Precision-/Recallkurve (Precision-Recall, PR). Dieser reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • AUC ROC: der Bereich unter der Grenzwertoptimierungskurve (Receiver Operating Curve, ROC). Dieser reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • Richtigkeit: der Anteil der Klassifizierungsvorhersagen des Modells, die richtig waren.
  • Logarithmischer Verlust: die Kreuzentropie zwischen den Modellvorhersagen und den Zielwerten. Dieser hat einen Bereich von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
  • F1-Wert: der harmonische Mittelwert von Precision und Recall. F1 ist ein hilfreicher Messwert, wenn Sie ein Gleichgewicht zwischen Genauigkeit und Trefferquote anstreben und die Klassenverteilung ungleichmäßig ist.

Prognose- und Regressionsmesswerte

Nach dem Erstellen Ihres Modells bietet Vertex AI eine Vielzahl von Standardmesswerten, die Sie prüfen können. Eine perfekte Antwort auf die Frage, wie Sie Ihr Modell bewerten sollten, gibt es nicht. Berücksichtigen Sie Bewertungsmesswerte im Zusammenhang mit Ihrem Problemtyp und den Zielen, die Sie mit Ihrem Modell erreichen möchten. Im Folgenden finden Sie eine Übersicht über einige Messwerte, die Vertex AI bereitstellen kann.

Mittlerer absoluter Fehler (MAE)

Der mittlere absolute Fehler (Mean Absolute Error, MAE) ist die durchschnittliche absolute Differenz zwischen dem Zielwert und den vorhergesagten Werten. Er misst die durchschnittliche Größe der Fehler – die Differenz zwischen einem Zielwert und einem vorhergesagten Wert – in einer Reihe von Vorhersagen. Da MAE absolute Werte verwendet, berücksichtigt diese Kennzahl weder die Richtung der Beziehung noch zeigt sie eine unter- oder überdurchschnittliche Leistung an. Bei der Bewertung von MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Predictor).

Wurzel der mittleren Fehlerquadratsumme (RMSE)

Die Wurzel der mittleren Fehlerquadratsumme (Root Mean Square Error, RMSE) ist die Quadratwurzel der mittleren quadrierten Differenz zwischen dem Zielwert und den vorhergesagten Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).

Wurzel des mittleren quadratischen logarithmischen Fehlers (RMSLE)

Die Wurzel des mittleren quadratischen logarithmischen Fehlers (Root Mean Squared Logarithmic Error, RMSLE) ist RMSE im logarithmischen Maßstab. RMSLE reagiert empfindlicher auf relative Fehler als auf absolute Fehler und misst einer unterdurchschnittlichen Leistung ein höheres Gewicht bei als einer überdurchschnittlichen Leistung.

Beobachtetes Quantil (nur Prognosen)

Bei einem bestimmten Ziel-Quantil gibt das beobachtete Quantil den tatsächlichen Anteil der beobachteten Werte unter den angegebenen Quantil-Vorhersagewerten an. Das beobachtete Quantil gibt die Entfernung des Modells zum angestrebten Quantil an. Ein kleinerer Unterschied zwischen den beiden Werten verweist auf ein Modell von höherer Qualität.

Skalierter Pinball-Loss (nur Prognose)

Misst die Qualität eines Modells bei einem bestimmten Zielquantil. Eine niedrigere Zahl gibt ein höheres Qualitätsmodell an. Sie können den Messwert für den skalierten Pinball-Verlust mit verschiedenen Quantilen vergleichen, um die relative Genauigkeit Ihres Modells zwischen diesen verschiedenen Quantilen zu bestimmen.

Modell testen

Bei der Auswertung der Modellmesswerte geht es in erster Linie darum, festzustellen, ob das Modell einsatzbereit ist. Sie können es aber auch mit neuen Daten testen. Laden Sie neue Daten hoch, um herauszufinden, ob die Vorhersagen des Modells Ihren Erwartungen entsprechen. Je nach den Bewertungsmesswerten oder den Ergebnissen der Tests mit neuen Daten müssen Sie möglicherweise die Leistung des Modells weiter verbessern.

Modell bereitstellen

Wenn Sie mit der Leistung des Modells zufrieden sind, können Sie das Modell nun einsetzen. Vielleicht bedeutet dies eine Nutzung in der Produktionsumgebung, vielleicht handelt es sich aber auch um eine einmalige Vorhersageanfrage. Abhängig von Ihrem Anwendungsfall können Sie das Modell auf verschiedene Weise verwenden.

Batchvorhersage

Die Batchvorhersage eignet sich für die gleichzeitige Verarbeitung von vielen Vorhersageanfragen. Die Batchvorhersage ist asynchron, d. h., das Modell verarbeitet zuerst alle Vorhersageanfragen, bevor die Ergebnisse in Form einer CSV-Datei oder BigQuery-Tabelle mit Vorhersageantworten ausgegeben werden.

Onlinevorhersage

Stellen Sie das Modell bereit, um es für Vorhersageanfragen über eine REST API verfügbar zu machen. Die Onlinevorhersage ist synchron (in Echtzeit), d. h., sie gibt in kürzester Zeit eine Vorhersage zurück, akzeptiert jedoch nur eine Vorhersageanfrage pro API-Aufruf. Die Onlinevorhersage eignet sich, wenn Ihr Modell Teil einer Anwendung ist und Teile Ihres Systems von einer schnellen Vorhersage abhängig sind.

Bereinigen

Heben Sie die Bereitstellung des Modells auf, wenn es nicht verwendet wird, um unerwünschte Gebühren zu vermeiden.

Wenn Sie mit der Verwendung Ihres Modells fertig sind, löschen Sie die von Ihnen erstellten Ressourcen, um unerwünschte Kosten für Ihr Konto zu vermeiden.