노트북에서 쿼리 결과 탐색


BigQuery에서 Colab Enterprise 노트북을 사용하여 BigQuery 쿼리 결과를 탐색할 수 있습니다.

이 튜토리얼에서는 BigQuery 공개 데이터 세트에서 데이터를 쿼리하고 노트북에서 쿼리 결과를 탐색합니다.

목표

  • BigQuery에서 쿼리를 만들고 실행합니다.
  • 노트북에서 쿼리 결과를 탐색합니다.

비용

이 튜토리얼에서는 Google Cloud 공개 데이터 세트 프로그램을 통해 제공되는 데이터 세트를 사용합니다. 이러한 데이터 세트의 스토리지 비용은 Google에서 부담하며 데이터에 대한 공개 액세스를 제공합니다. 개발자에게는 데이터에서 수행하는 쿼리 요금이 청구됩니다. 자세한 내용은 BigQuery 가격 책정을 참조하세요.

시작하기 전에

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  3. BigQuery API 사용 설정

    API 사용 설정

    새 프로젝트의 경우 BigQuery가 자동으로 사용 설정됩니다.

BigQuery Studio 사용 설정

애셋 관리에 BigQuery Studio 사용 설정의 안내에 따라 노트북과 같은 코드 애셋을 저장 및 공유하고, 버전을 관리합니다.

필수 권한

노트북을 만들고 실행하려면 다음 Identity and Access Management(IAM) 역할이 필요합니다.

노트북에서 쿼리 결과 열기

SQL 쿼리를 실행한 후 노트북을 사용하여 데이터를 탐색할 수 있습니다. 이 방법은 데이터를 사용하기 전에 BigQuery에서 데이터를 수정하려는 경우나 테이블에서 필드 하위 집합만 필요한 경우에 유용합니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 검색할 유형 필드에 bigquery-public-data를 입력합니다.

    프로젝트가 표시되지 않으면 검색창에 bigquery를 입력한 후 모든 프로젝트 검색을 클릭하여 검색 문자열과 기존 프로젝트를 일치시킵니다.

  3. bigquery-public-data > ml_datasets > penguins를 선택합니다.

  4. penguins 테이블의 경우 작업 보기를 클릭한 후 쿼리를 클릭합니다.

  5. 다음 예시와 같이 읽도록 생성된 쿼리에 필드 선택에 필요한 별표(*)를 추가합니다.

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
    
  6. 실행을 클릭합니다.

  7. 쿼리 결과 섹션에서 데이터 탐색을 클릭한 후 Python 노트북으로 탐색을 클릭합니다.

사용할 노트북 준비

런타임에 연결하고 애플리케이션 기본값을 설정하여 사용할 노트북을 준비합니다.

  1. 노트북 헤더에서 연결을 클릭하여 기본 런타임에 연결합니다.
  2. 설정 코드 블록에서 셀 실행을 클릭합니다.

데이터 탐색

  1. penguins 데이터를 BigQuery DataFrame에 로드하고 결과를 표시하려면 BigQuery 작업에서 DataFrame으로 로드된 결과 집합 섹션의 코드 블록에서 셀 실행을 클릭합니다.
  2. 데이터의 설명 측정항목을 가져오려면 describe()를 사용하여 설명 통계 표시 섹션의 코드 블록에서 셀 실행을 클릭합니다.
  3. 선택사항: 다른 Python 함수나 패키지를 사용하여 데이터를 탐색하고 분석합니다.

다음 코드 샘플은 bigframes.pandas를 사용하여 데이터를 분석하고 bigframes.ml을 사용하여 BigQuery DataFrame의 penguins 데이터에서 선형 회귀 모델을 만드는 방법을 보여줍니다.

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 Google Cloud 프로젝트를 삭제하는 것입니다.

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계