생성형 AI 개요

이 문서에서는 BigQuery ML이 지원하는 생성형 인공지능(AI) 기능을 설명합니다. 이러한 기능을 사용하면 선행 학습된 Vertex AI 기반 모델을 사용하여 BigQuery ML에서 AI 태스크를 수행할 수 있습니다. 지원되는 태스크는 다음과 같습니다.

BigQuery ML에서 Vertex AI 모델의 엔드포인트를 나타내는 원격 모델을 만들어 Vertex AI 모델에 액세스하여 이러한 함수 중 하나를 수행합니다. 사용할 Vertex AI 모델에 대한 원격 모델을 만든 후에는 원격 모델에 대해 BigQuery ML 함수를 실행하여 해당 모델의 기능에 액세스합니다.

이 접근 방식을 사용하면 이러한 Vertex AI 모델의 기능을 사용하여 SQL을 사용하는 BigQuery 데이터를 분석할 수 있습니다.

워크플로

Vertex AI 모델을 통한 원격 모델과 BigQuery ML 함수와 함께 Cloud AI 서비스를 통한 원격 모델을 사용하여 복잡한 데이터 분석 및 생성형 AI 태스크를 수행할 수 있습니다.

다음 다이어그램은 이러한 기능을 함께 사용할 수 있는 몇 가지 일반적인 워크플로를 보여줍니다.

Vertex AI 모델 또는 Cloud AI 서비스를 사용하는 원격 모델의 일반적인 워크플로를 보여주는 다이어그램

생성형 AI

대규모 언어 모델(LLM)을 사용하여 텍스트 요약 및 생성이나 시각적 콘텐츠 분석과 같은 태스크를 수행할 수 있습니다. 예를 들어 긴 보고서를 요약하거나 시각적 콘텐츠를 설명하는 텍스트를 생성할 수 있습니다. 또한 비전 언어 모델(VLM)을 사용하여 이미지 캡셔닝 및 시각적 질의응답 등의 태스크를 위해 이미지 및 동영상과 같은 시각적 콘텐츠를 분석할 수 있습니다.

생성형 자연어 또는 시각적 분석 태스크를 수행하려면 원격 모델을 만들고 ENDPOINT 값에 대한 모델 이름을 지정하여 선행 학습된 Vertex AI 기반 모델에 대한 참조를 만들면 됩니다. 지원되는 Vertex AI 모델은 다음과 같습니다.

  • gemini-pro
  • gemini-pro-vision(미리보기)
  • text-bison
  • text-bison-32k
  • text-unicorn

Vertex AI text-bison 모델의 모든 버전을 참조하는 원격 모델을 만드는 경우 선택적으로 지도 조정(미리보기)을 동시에 구성할 수 있습니다.

모델을 만든 후에는 ML.GENERATE_TEXT 함수를 사용하여 해당 모델과 상호작용할 수 있습니다. 텍스트 모델 기반 원격 모델의 경우 ML.GENERATE_TEXT 함수가 표준 테이블의 텍스트와 함께 작동합니다. 멀티모달 모델 기반 원격 모델의 경우 ML.GENERATE_TEXT 함수는 객체 테이블의 시각적 콘텐츠와 함께 작동합니다. 모든 추론은 Vertex AI에서 발생합니다. 결과는 BigQuery에 저장됩니다.

자세한 내용은 ML.GENERATE_TEXT 함수로 텍스트 생성을 참조하세요.

임베딩

임베딩을 사용하면 의미론적으로 유사한 항목을 식별할 수 있습니다. 예를 들어 텍스트 임베딩을 사용하여 두 텍스트 부분이 유사한 정도를 식별할 수 있습니다. 텍스트 조각이 의미론적으로 유사하면 해당 임베딩이 임베딩 벡터 공간에서 서로 가깝게 배치됩니다.

BigQuery ML 모델을 사용하여 다음 유형의 임베딩을 만들 수 있습니다.

  • 텍스트 임베딩을 만들려는 경우 원격 모델을 만들고 ENDPOINT 값에 LLM 이름을 지정하여 Vertex AI textembedding-gecko 또는 textembedding-gecko-multilingual 텍스트 임베딩 기반 모델 중 하나에 대한 참조를 만들 수 있습니다.
  • 텍스트 및 이미지를 동일한 시맨틱 공간에 삽입하는 멀티모달 임베딩을 만들려면 원격 모델을 만들고 ENDPOINT 값에 대한 LLM 이름을 지정하여 Vertex AI multimodalembedding LLM에 대한 참조를 만들면 됩니다. 이 기능은 프리뷰 버전으로 제공됩니다.
  • 구조화된 독립적이고 동일한 분포의 무작위 변수(IID) 데이터의 임베딩을 만들려면 주요 구성요소 분석(PCA) 모델 또는 Autoencoder 모델을 사용하면 됩니다. 이 기능은 프리뷰 버전으로 제공됩니다.
  • 사용자 또는 항목 데이터에 대한 임베딩을 만들려면 행렬 분해 모델을 사용하면 됩니다. 이 기능은 프리뷰 버전으로 제공됩니다.

모델을 만든 후에는 ML.GENERATE_EMBEDDING 함수를 사용하여 모델과 상호작용할 수 있습니다. 지원되는 모든 유형의 모델에서 ML.GENERATE_EMBEDDING표준 테이블의 데이터로 작동합니다. 멀티모달 임베딩 모델의 경우 ML.GENERATE_EMBEDDING객체 테이블의 시각적 콘텐츠로도 작동합니다. 원격 모델의 경우 모든 추론이 Vertex AI에서 발생합니다. 다른 모델 유형의 경우 모든 추론이 BigQuery에서 발생합니다. 결과는 BigQuery에 저장됩니다.

자세히 알아보려면 ML.GENERATE_EMBEDDING 함수를 사용하여 텍스트 임베딩이미지 임베딩을 만들어 보세요.

비슷한 경량형 텍스트 임베딩의 경우 NNLM, SWIVEL, BERT와 같은 사전 학습된 TensorFlow 모델 사용을 시도해 보세요.

임베딩 사용 사례에 가장 적합한 모델 선택에 대한 자세한 내용은 텍스트 임베딩 모델 선택을 참조하세요.

다음 단계

  • 머신러닝 모델에 대한 추론을 수행하는 방법에 대한 자세한 내용은 모델 추론 개요를 참조하세요.