Nichtflüchtige Ressource neu starten

Sie können jede nichtflüchtige Ressource mit dem Status RUNNING oder ERROR neu starten. Durch den Neustart einer nichtflüchtigen Ressource können Sie Fehler beheben, die von der nichtflüchtigen Ressource nicht allein behoben werden können. Sie können auch eine nichtflüchtige Ressource neu starten, um manuell aktuellere Cluster zu erhalten. Auf dieser Seite wird beschrieben, wie Sie eine nichtflüchtige Ressource mit der Google Cloud Console und der REST API neu starten.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die Rolle Vertex AI Administrator (roles/aiplatform.admin) für Ihr Projekt zu gewähren, um die Berechtigung zum Neustarten einer nichtflüchtigen Ressource zu erhalten. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Diese vordefinierte Rolle enthält die Berechtigung aiplatform.persistentResources.update, die zum Neustart einer nichtflüchtigen Ressource erforderlich ist.

Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Nichtflüchtige Ressource neu starten

Wählen Sie einen der folgenden Tabs aus, um zu erfahren, wie Sie eine nichtflüchtige Ressource neu starten. Achten Sie darauf, dass keine Trainingsjobs auf der nichtflüchtigen Ressource ausgeführt werden.

Console

So starten Sie eine nichtflüchtige Ressource in der Google Cloud Console neu:

  1. Öffnen Sie in der Google Cloud Console die Seite Nichtflüchtige Ressourcen.

    Nichtflüchtige Ressourcen aufrufen

  2. Klicken Sie neben dem Namen der nichtflüchtigen Ressource, die Sie neu starten möchten, auf die vertikalen Ellipsen ().

  3. Klicken Sie auf Neu starten.

  4. Klicken Sie auf Bestätigen.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Die Projekt-ID der nichtflüchtigen Ressource, die Sie neu starten möchten.
  • LOCATION: Die Region der nichtflüchtigen Ressource, die Sie löschen möchten.
  • PERSISTENT_RESOURCE_ID: Die ID der nichtflüchtigen Ressource, die Sie neu starten möchten.

HTTP-Methode und URL:

POST http://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Der Neustart einer nichtflüchtigen Ressource ist ein lang andauernder Vorgang, in dem die nichtflüchtige Ressource nicht gelöscht werden kann. Der Vorgang enthält ein Feld progressMessage, das in einem Fehler-Fall einen Fehlerstatus enthält. Wenn der Vorgang "done: true" angezeigt hat, prüfen Sie den Status der nichtflüchtigen Ressource. Wenn die nichtflüchtige Ressource den Status RUNNING hat, war der Neustart erfolgreich und es kann Trainingsjobs ausgeführt werden.

Beschränkungen

Es gelten die folgenden Einschränkungen beim Neustart einer nichtflüchtigen Ressource:

  • In einigen Fällen kann es vorkommen, dass Kapazitäten von knappen Ressourcen verloren gehen, wenn eine nichtflüchtige Ressource neu gestartet wird. Eine vollständige Ressourcenaufbewahrung wird nicht garantiert.
  • Der Neustart ist in Ray in Vertex AI nicht verfügbar.
  • Nichtflüchtige Ressourcen mit automatisch skalierten Worker-Pools werden mit der minimalen Replikatanzahl neu gestartet.

Nächste Schritte