VMs beobachten und überwachen


In diesem Dokument wird beschrieben, wie Sie auf VM-Messwerte (virtuelle Maschine) zugreifen und sie ansehen. Außerdem wird beschrieben, wie Sie VM-Messwerte prüfen, um mehr über Ihre VMs zu erfahren oder bestimmte Probleme mit einer VM zu beheben.

Monitoring der VM-Instanzen ist für die Verwaltung Ihrer VM-Ressourcen wichtig. Compute Engine bietet im Tab Beobachtbarkeit in der Google Cloud Console einen allgemeinen Überblick über Ihre VM-Messwerte. Dieser Tab enthält ein vordefiniertes Dashboard mit Telemetriedaten, sodass Sie Ihre VMs überwachen und fundierte Entscheidungen zu Ihren Compute Engine-Ressourcen treffen können. Sie können das vordefinierte Dashboard auch so anpassen, dass nur die gewünschten Messwerte angezeigt werden.

Alle VMs verfügen über grundlegende Prozessauslastungsdaten, wenn sie erstellt werden. Die Installation des Ops-Agents bietet jedoch tiefere Einblicke in das VM-Verhalten.

Weitere Informationen zum Erstellen einer Monitoring-Benachrichtigungsrichtlinie mit dem Metrics Explorer oder allgemeine Informationen zur Funktionsweise von Monitoring und Messwerten in Google Cloud finden Sie in den Dokumenten zu Cloud Monitoring.

Hinweise

Optional: Installieren Sie den Ops-Agent, um detailliertere Daten von Ihren Compute Engine-Instanzen zu erfassen.

So prüfen Sie, auf welchen VM-Instanzen der Ops-Agent installiert ist:

  1. Rufen Sie in der Google Cloud Console Monitoring-Dashboards auf.

    Zu den Monitoring-Dashboards

  2. Wählen Sie aus der Dashboardliste VM-Instanzen aus.

  3. Klicken Sie auf Liste, um die VMs als Liste aufzurufen.

    Alle VMs in Ihrem Projekt werden angezeigt. In der Spalte Agent wird der Status der Ops-Agent-Installation angezeigt. Sie können den Agent von dieser Seite aus installieren oder aktualisieren.

Auf Messwerte zur Beobachtbarkeit von VMs zugreifen

Im Tab Beobachtbarkeit in der Google Cloud Console können Sie auf Informationen für eine oder mehrere VMs zugreifen. Standardmäßig werden in einem vordefinierten Dashboard die VM-Messwerte angezeigt. Wenn Sie nur die gewünschten spezifischen Messwerte anzeigen möchten, können Sie ein benutzerdefiniertes Dashboard erstellen.

Beobachtbarkeitsmesswerte für eine einzelne VM ansehen

Grundlegende VM-Messwerte wie CPU-Auslastung und Netzwerk-Traffic stehen Ihnen beim Erstellen der VM zur Verfügung. Messwerte für die Speicher- und Prozessauslastung sind nur bei der Installation des Ops-Agents verfügbar. Dies ist der primäre Agent zum Erheben von Telemetriedaten von Ihren Compute Engine-Instanzen.

So rufen Sie die Messwerte für eine einzelne VM auf:

  1. Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Wählen Sie eine VM aus, um die Seite Details zu öffnen.

  3. Klicken Sie auf den Tab Beobachtbarkeit, um Informationen zur VM aufzurufen.

  4. Optional: Setzen Sie den Standardzeitraum von einer Stunde auf den Zeitraum, den Sie überwachen möchten.

In den Informationen von Abbildung 1 werden VM-Details ohne den auf der VM installierten Ops-Agent angezeigt. Beachten Sie, dass die Grafiken für Arbeitsspeicher und Speicherplatznutzung keine Daten enthalten.

Tab „Beobachtbarkeit“ für eine einzelne VM ohne installierten Ops-Agent.
Abbildung 1 DieSichtbarkeit Tab für eine einzelne VM ohne installierten Ops-Agent.

Beobachtbarkeitsmesswerte für mehrere VMs ansehen

Die Beobachtbarkeit auf Flottenebene zeigt die Messwerte für die fünf wichtigsten VMs mit der höchsten Prozessauslastung an. Die fünf am häufigsten aufgeführten VMs variieren je nach Messwert. Möglicherweise werden nicht für jeden Prozess dieselben fünf VMs angezeigt. Obwohl auf Flottenebene ohne Installation des Ops-Agents mehr Daten zur Verfügung stehen als bei einer einzelnen VM, liefert die Installation des Agents mehr Daten für die spätere Fehlersuche.

So rufen Sie die Messwerte für mehrere VMs auf:

  1. Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf den Tab Beobachtbarkeit.

  3. Optional: Setzen Sie den Standardzeitraum von einer Stunde auf den Zeitraum, den Sie überwachen möchten.

  4. Filtern Sie die Ergebnisse nach einer oder mehreren der folgenden Optionen:

    • ID
    • Name
    • Maschinentyp
    • Zone
    • Region
    • Instanzgruppe
    • Labels
    • Status

Die Informationen in Abbildung 2 zeigen ein Beispiel für den Tab „Beobachtbarkeit“, wenn auf mehreren VMs in einem Projekt der Ops-Agent installiert ist. Für diese VMs sind weitere Messwerte verfügbar.

Mehrere VM-Instanzen mit installiertem Ops-Agent.
Abbildung 2: Mehrere VM-Instanzen mit installiertem Ops-Agent.

Detaillierte Messwerte für eine VM ansehen

Jeder VM-Prozessmesswert wird durch eine Grafiklinie in einem Diagramm dargestellt. Im folgenden Beispiel ist auf der VM uptime-demo der Ops-Agent installiert. Daten zur Speicherauslastung sind für die Fehlerbehebung verfügbar. Wenn eine VM nicht auf der Karte aufgeführt ist, filtern Sie nach dem VM-Namen, um eine bestimmte VM zu finden.

So rufen Sie die Informationen zu dieser VM oder einer der fünf anderen VMs mit dem Tab „Beobachtbarkeit“ ab:

  1. Halten Sie den Mauszeiger über die Grafiklinie einer VM. Es wird eine Karte mit einer Liste der fünf wichtigsten VMs angezeigt, die den Prozess verwenden, wobei für jede ein Messwert angezeigt wird.
  2. Wenn Sie mehr über das Verhalten der VM erfahren möchten, klicken Sie auf die Grafiklinie der VM oder auf einen bestimmten VM-Namen in der Liste.

Die uptime-demo-VM, die auf der Card in Abbildung 3 angezeigt wird, zeigt einige Messwerte an, die möglicherweise überprüft werden müssen.

Die Grafiklinie steht für eine VM. Klicken Sie darauf, um mehr über eine bestimmte VM zu erfahren.
Abbildung 3: Die Grafiklinie stellt eine VM dar. Klicken Sie darauf, um mehr über eine bestimmte VM zu erfahren.

Klicken Sie auf die VM uptime-demo, um die in Abbildung 4 angezeigte Seite VM-Details, auf der folgende Informationen zu sehen sind:

  • Der Status des Ops-Agents.
  • Die Kontextoptionen zum Erstellen von Benachrichtigungen, zur Prüfung nach Ereignissen oder zum Erstellen von Verfügbarkeitsdiagnosen.
  • Die Option zum Anzeigen der Details zu den Konfigurationen, Messwerten und Logs der VM.
Auf der Seite „VM-Details“ finden Sie Informationen zu einer bestimmten VM.
Abbildung 4: Die Seite „VM-Details“ enthält Informationen zu einer bestimmten VM.

Benutzerdefiniertes Dashboard erstellen, um bestimmte Messwerte aufzurufen

Standardmäßig enthält der Tab Beobachtbarkeit in Compute Engine ein vordefiniertes Dashboard mit grundlegenden VM-Messwerten. Wenn Sie nur die gewünschten Messwerte sehen möchten, können Sie das vordefinierte Dashboard ändern und als benutzerdefiniertes Dashboard speichern. Sie können das Dashboard nach Belieben anpassen.

So erstellen Sie ein benutzerdefiniertes Dashboard:

  1. Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Wechseln Sie so zum Tab Beobachtbarkeit:

    • Für eine einzelne VM: Klicken Sie auf der Seite VM-Instanzen auf den VM-Namen, um die Seite Details zu öffnen, und klicken Sie dann auf Beobachtbarkeit. Tab für diese VM.
    • Für mehrere VMs: Klicken Sie auf der Seite VM-Instanzen auf den Tab Beobachtbarkeit.
  3. Wenn das Drop-down-Menü Dashboard aktiviert ist, sind benutzerdefinierte Dashboards verfügbar. Wählen Sie zum Ändern einer benutzerdefinierten Ansicht eine benutzerdefinierte Ansicht aus dem Drop-down-Menü aus und klicken Sie dann in der Dashboard-Symbolleiste auf .

  4. Klicken Sie andernfalls in der Dashboard-Symbolleiste auf , um das vordefinierte Dashboard anzupassen.

    Compute Engine erstellt eine Kopie des vordefinierten Dashboards und öffnet die Kopie dann im Bearbeitungsmodus.

  5. Im Editor können Sie die Visualisierungen im Dashboard hinzufügen, ändern, löschen, neu positionieren oder ihre Größe anpassen. Die Visualisierungen werden allgemein als Widgets bezeichnet. Weitere Informationen zu den verschiedenen Widgettypen finden Sie in der Dashboard-Übersicht.

    • Wenn Sie ein Widget hinzufügen möchten, klicken Sie in der Dashboard-Symbolleiste auf Widget hinzufügen und schließen Sie die Konfiguration ab.

      Wenn Sie beispielsweise die Logs mit Ihren Messwertdaten aufrufen möchten, klicken Sie auf Widget hinzufügen. Wählen Sie Logs aus und klicken Sie dann auf Übernehmen.

    • Zum Ändern eines Widgets platzieren Sie den Mauszeiger auf dem Widget, um die Symbolleiste zu aktivieren, und klicken Sie auf Widget bearbeiten und verwenden Sie dann die Widget konfigurieren Dialogfeld. Klicken Sie in der Symbolleiste auf Anwenden, um die Änderungen auf das Dashboard anzuwenden. Wenn Sie die Änderungen verwerfen möchten, klicken Sie auf Abbrechen.

    • Zum Löschen eines Widgets platzieren Sie den Mauszeiger auf dem Widget, um die Symbolleiste zu aktivieren. Klicken Sie auf Weitere Diagrammoptionen und wählen Sie dann Löschen aus. 2}.

    • Ziehen Sie das Widget mit dem Mauszeiger an seine Kopfzeile, um es neu zu positionieren.

    • Um die Größe eines Widgets zu ändern, positionieren Sie den Mauszeiger auf die rechte Ecke des Widgets.

  6. Nachdem Sie die Bearbeitung des Dashboards abgeschlossen haben, klicken Sie auf Speichern.

  7. Klicken Sie im Dialogfeld zur Bestätigung der Änderungen auf Benutzerdefiniertes Dashboard anzeigen, um die benutzerdefinierte Ansicht aufzurufen.

    Wenn Sie zur vordefinierten Ansicht zurückkehren möchten, wählen Sie im Drop-down-Menü Dashboard die Option Vordefiniert aus.

Ressourcenmesswerte überprüfen

Klicken Sie auf das Menü Beobachtbarkeit, um mehr über die einzelnen Ressourcenmesswerte zu erfahren:

  • Prüfen Sie CPU, Prozesse, Arbeitsspeicherauslastung, Netzwerktraffic und Laufwerksauslastung.
  • Zeigen Sie Logdaten an. Suchen Sie dazu in Logs nach Systemereignissen und sehen Sie sich diese an.
  • Fügen Sie Integrationen von Drittanbietern hinzu und suchen Sie nach konfigurierten vorhandenen Integrationen.

Der Rest dieses Abschnitts beschreibt Beispiele dafür, wie sich einige Prozesse auf Ihre Arbeitslasten auswirken können. Diese Informationen gehen davon aus, dass der Ops-Agent auf Ihren VMs installiert ist.

CPU-Auslastung

Ein Beispiel für eine extreme CPU-Auslastung kann darin bestehen, dass ein Server unter einer unerwarteten starken Last steht, z. B. wenn eine Website einen plötzlichen Traffic-Anstieg aufweist oder wenn eine Aufgabe zur Datenverarbeitung im großen Maßstab ausgeführt wird. In solchen Situationen kann die CPU über einen längeren Zeitraum mit 100 % Kapazität ausgeführt werden, was dazu führen kann, dass der Server langsamer wird oder nicht mehr reagiert.

In diesem Beispiel ist die Sättigung das Problem. Wenn die CPU-Auslastung 100 % beträgt, kann dies für Ihre Arbeitslasten in Ordnung sein. Möglicherweise sollten Sie jedoch andere Messwerte untersuchen, um zu ermitteln, ob ein Eingreifen erforderlich ist. In diesem Fall möchten Sie möglicherweise eine Benachrichtigungsrichtlinie erstellen, damit Sie benachrichtigt werden, wenn die CPU-Auslastung einer VM deutlich zunimmt.

Mit den entsprechenden Berechtigungen können Sie eine SSH-Verbindung zu Ihren VMs herstellen, um das Problem zu untersuchen. Wenn der Ops-Agent installiert ist, können Sie weitere Verlaufsdaten sehen, die bei der Fehlerbehebung helfen.

Prozessauslastung

Ein Beispiel für ein extremes Prozessverhalten wäre, wenn ein Prozess eine übermäßige Menge an Ressourcen wie CPU, Arbeitsspeicher oder Laufwerk-E/A verbraucht, bis zu dem Punkt, an dem er eine Leistungsverschlechterung verursacht oder sogar die VM zum Absturz bringt.

Wenn ein auf einer VM ausgeführter Prozess z. B. ein Speicherleck aufweist, kann das im Laufe der Zeit zu einer zunehmenden hohen Arbeitsspeicherauslastung kommen. Dies kann dazu führen, dass die VM nicht mehr über genügend Arbeitsspeicher verfügt und abstürzt. Ebenso kann ein Prozess, der das Laufwerk stark beansprucht, dazu führen, dass die Laufwerk-E/A der VM ausgelastet wird, was zu langsamen Antwortzeiten für andere Prozesse führt.

Arbeitsspeicherauslastung

Datenbanken benötigen viel Arbeitsspeicher, um Vorgänge wie Indexierung, Sortierung und die Zusammenführung von Tabellen auszuführen.

Ein Beispiel für eine hohe Speichernutzung auf einer VM ist, wenn Sie einen Datenbankserver wie Cloud SQL for MySQL oder Cloud SQL for PostgreSQL mit einem großen Dataset ausführen. Wenn der verfügbare Arbeitsspeicher Ihrer VM zu klein ist, kann das Neuladen eines Datasets in den Speicher dazu führen, dass die Datenbank langsam ausgeführt wird oder abstürzt.

Netzwerkleistung

Probleme mit der Netzwerkleistung sind auf verschiedene Faktoren zurückzuführen: Überlastung, Bandbreitenbeschränkungen, Hardware- oder Softwareprobleme und Latenz. Um das Problem zu diagnostizieren, überwachen Sie die Messwerte der Netzwerkleistung, beheben Sie Hardware- und Softwareprobleme und analysieren Sie die Muster des Netzwerktraffics, um die Grundursache des Problems zu ermitteln und zu lösen.

Laufwerksauslastung

Eine hohe Laufwerkauslastung auf einer VM tritt auf, wenn eine große Menge an Daten auf dem virtuellen Laufwerk gelesen oder geschrieben wird, was zu einer Verzögerung des Laufwerkzugriffs und einer möglichen Beeinträchtigung der VM-Leistung führt.

Durch das Monitoring der Messwerte zur Laufwerkauslastung wie Laufwerk-E/A-Vorgänge pro Sekunde (IOPS), der Länge der Laufwerkwarteschlange und der durchschnittlichen Antwortzeit des Laufwerks können Sie Probleme mit der Laufwerkauslastung auf einer VM identifizieren und diagnostizieren.

Logs und Systemereignisse prüfen

Die Seite Alle Logs enthält Logdaten zu Ihren Ressourcen. Sortieren Sie nach Schweregrad, um Probleme zu ermitteln und die Nutzlast zu prüfen.

Audit-Logs zeichnen administrative Ereignisse auf, die in Ihren Ressourcen auftreten. Die Logs können Ihnen Aufschluss darüber geben, was das Ereignis ausgelöst hat. Mehrere Logs werden aufgezeichnet und in derselben Zeile verwaltet. Wenn Sie beispielsweise 20 identische Logs haben, werden die Informationen in einer Zeile gespeichert, nicht in 20 separaten Zeilen.

Sie können sich Systemereignisse als Oberbegriff für Ereignisse vorstellen, die auf einer höheren Ebene auftreten, sich aber auf Ihre Compute Engine-Ressourcen auswirken können. Ein Systemereignis tritt auf, wenn ein Fehler ausgelöst wird, der nichts mit einem geplanten Ereignis zu tun hat. Systemereignisse werden auf Flottenebene protokolliert.

Einbindung von Drittanbieterlösungen verwenden

Monitoring ermöglicht die Integration mit Anwendungen von Drittanbietern. Durch diese Integrationen können Sie Telemetriedaten aus Anwendungen wie Apache-Webserver, Cloud SQL for MySQL und Memorystore for Redis für Deployments erfassen, die in Compute Engine und GKE ausgeführt werden. Wenn Sie Compute Engine verwenden, wird die Telemetrie eines Drittanbieters vom Ops-Agent erfasst.

Nächste Schritte