데이터 세트 버전 관리

Vertex AI를 사용하면 데이터 세트의 버전을 만들 수 있습니다. 이 기능은 재현성, 추적 가능성, 데이터세트 계보 관리에 유용할 수 있습니다.

이미지 및 텍스트 데이터 세트의 버전을 만들 수 있습니다. 데이터 세트 버전을 만들 때 Vertex AI는 BigQuery 데이터 세트를 만듭니다(있는 경우). BigQuery 데이터 세트는 연결된 Vertex AI 데이터 세트의 모든 버전을 저장합니다.

버전을 복원하면 연결된 데이터 세트가 재정의됩니다. 복원 작업이 종료될 때까지 데이터 세트를 다른 요청에 일시적으로 사용할 수 없습니다.

데이터 세트 버전 만들기

Vertex AI API를 사용하여 데이터 세트 버전을 만들 수 있습니다. 해당 탭의 단계를 따르세요.

REST

데이터 세트 ID 가져오기

버전을 만들려면 데이터 세트의 숫자 ID를 알아야 합니다. 데이터 세트의 표시 이름은 알지만 ID를 모르는 경우 API를 사용해 ID를 가져오는 방법을 알아보려면 다음 섹션을 참조하세요.

표시 이름에서 Dataset ID 가져오기

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: Dataset가 저장된 위치. 예를 들면 us-central1입니다.

  • PROJECT_ID: 프로젝트 ID

  • DATASET_DISPLAY_NAME: Dataset의 표시 이름

HTTP 메서드 및 URL:

GET http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

다음 명령어를 실행합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME"

PowerShell

다음 명령어를 실행합니다.

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME" | Select-Object -Expand Content

다음 예시 응답이 ...로 잘려 Dataset의 ID를 찾을 수 있는 위치를 강조합니다. DATASET_ID 자리에 있는 숫자입니다.

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID",
      "displayName": "DATASET_DISPLAY_NAME",
      ...
    }
  ]
}

또는 Google Cloud 콘솔에서 데이터 세트의 ID를 가져올 수 있습니다. Vertex AI 데이터 세트 페이지로 이동하여 ID 열에서 숫자를 찾으세요.

데이터 세트 페이지로 이동

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: 데이터 세트 버전이 저장되는 리전. 예를 들면 us-central입니다.

  • PROJECT_ID: 프로젝트 ID

  • DATASET_ID: 데이터 세트의 숫자 ID

HTTP 메서드 및 URL:

POST http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

다음 명령어를 실행합니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d "" \
"http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

다음 명령어를 실행합니다.

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

일부 요청은 완료하는 데 시간이 걸리는 장기 실행 작업을 시작합니다. 이러한 요청은 작업 상태를 보거나 작업을 취소하는 데 사용할 수 있는 작업 이름을 반환합니다. Vertex AI는 장기 실행 작업을 호출하는 도우미 메서드를 제공합니다. 자세한 내용은 장기 실행 작업 다루기를 참조하세요.

데이터 세트 버전 복원

Vertex AI API를 사용하여 데이터 세트 버전을 복원할 수 있습니다. 해당 탭의 단계를 따르세요.

REST

데이터 세트 버전의 ID 가져오기

버전을 복원하려면 버전의 숫자 ID를 알아야 합니다. API를 사용하여 모든 데이터 세트 버전을 나열할 수 있습니다.

DatasetDatasetVersion 나열

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: 데이터 세트 버전이 저장되는 리전. 예를 들면 us-central입니다.

  • PROJECT_ID: 프로젝트 ID

  • DATASET_ID: 데이터 세트의 숫자 ID

HTTP 메서드 및 URL:

GET http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

다음 명령어를 실행합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

다음 명령어를 실행합니다.

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

다음 예시 응답이 ...로 잘려 데이터 세트 버전의 ID를 찾을 수 있는 위치를 강조합니다. DATASET_VERSION_ID 자리에 있는 숫자입니다.

{
  "datasetVersions": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID",
      ...
    }
  ]
}

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: 데이터 세트 버전이 저장되는 리전. 예를 들면 us-central입니다.

  • PROJECT_ID: 프로젝트 ID

  • DATASET_ID: 데이터 세트의 숫자 ID

  • DATASET_VERSION_ID: 데이터 세트 버전의 숫자 ID

HTTP 메서드 및 URL:

GET http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

다음 명령어를 실행합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore"

PowerShell

다음 명령어를 실행합니다.

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "http://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RestoreDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

일부 요청은 완료하는 데 시간이 걸리는 장기 실행 작업을 시작합니다. 이러한 요청은 작업 상태를 보거나 작업을 취소하는 데 사용할 수 있는 작업 이름을 반환합니다. Vertex AI는 장기 실행 작업을 호출하는 도우미 메서드를 제공합니다. 자세한 내용은 장기 실행 작업 다루기를 참조하세요.

다음 단계

Vertex AI에서 데이터 세트 작업에 대해 자세히 알아보기