Snowflake Connector for Google Analytics Raw Data 의 데이터 수집 모델

이 항목에서는 Snowflake Connector for Google Analytics Raw Data 에서 지원하는 데이터 수집 모델에 대한 정보를 제공합니다.

BigQuery 내보내기를 위한 Google Analytics

Google Analytics는 두 가지 유형의 BigQuery 내보내기를 지원합니다.
  • 매일 - Google Analytics는 events_XXXXXX 라는 테이블로 데이터를 내보냅니다. 테이블은 지정된 날의 모든 이벤트가 수집된 후 하루가 끝나면 매일 한 번 생성됩니다.

  • 스트리밍 - Google Analytics는 종일 지속적으로 데이터를 내보내고 이를 events_intraday_XXXXXX 라는 테이블에 저장합니다.

커넥터는 두 가지 유형의 내보내기를 모두 지원하며 일일 또는 일중 여부에 관계없이 BigQuery에서 찾는 모든 테이블을 자동으로 다운로드합니다. 추가 구성이 필요하지 않습니다.

싱크대

각 속성에 대해 커넥터는 데이터베이스에서 생성된 속성별 테이블과 커넥터 구성에 제공된 스키마에 이벤트를 저장합니다. 각 속성에 대해 두 개의 테이블이 생성되는데 하나는 일일 내보내기용이고 다른 하나는 일중 내보내기용으로, 각각 이름이 ANALYTICS_XXXXXXXXXANALYTICS_INTRADAY_XXXXXXXXX 입니다. 두 가지 유형의 내보내기가 모두 Google Analytics에 구성되면 커넥터는 두 테이블을 모두 수집합니다(일중 테이블을 먼저 수집하고 그 후에 일일 테이블을 수집함).

일일 테이블 수집

커넥터는 테이블이 BigQuery에 존재한다는 점을 인식하면 단일 실행으로 전체 테이블을 다운로드합니다. 테이블이 다운로드되면 향후 처리를 위해 다시 고려되지 않습니다. Google에서는 테이블이 생성된 후 최대 72시간까지는 일일 테이블이 업데이트될 수 있다고 경고합니다. 현재 버전의 커넥터는 싱크 테이블에 이러한 종류의 업데이트 반영을 지원하지 않습니다.

일중 수집

커넥터는 과거 일중 테이블(BigQuery에 있는 경우) 다운로드와 계속 업데이트를 받는 일중 테이블의 지속적인 수집을 지원합니다.

과거의 날에 대해서는 커넥터는 일일 테이블의 경우와 동일한 방식으로 일중 테이블을 다운로드합니다. 각 테이블은 프로세스가 현재 데이터에 도달할 때까지 한 번에 한 테이블씩 전체적으로 다운로드됩니다.

커넥터는 일중 테이블이 BigQuery의 마지막 테이블임을 인식하면 테이블을 증분 처리하기 시작합니다. 이는 기본적으로 8시간인 일정한 간격으로 종일 테이블에서 들어오는 데이터 배치를 다운로드한다는 의미입니다.

다음 조건 중 하나라도 충족되는 경우:

  • 다음 날 테이블이 BigQuery 데이터 세트에 나타남

  • 지정된 테이블에 대한 첫 번째 로드 이후 24시간 경과

커넥터가 지정된 일중 테이블에 대한 최종 수집을 수행하고 다음 테이블로 전환합니다.

참고

소수의 이벤트가 수집되지 않을 수 있으며 이는 10분 이상 지연된 이벤트와 관련이 있습니다. 앞으로 출시될 기능으로 이 문제가 해결될 것입니다.

더 자주 업데이트해야 하는 경우 CONFIGURE_INGESTION_INTERVAL 을 사용하여 기본 간격 값을 변경하십시오.