Snowflake Connector for Google Analytics Aggregate Data 수집 모델¶
Google Analytics Aggregate Data용 Snowflake Connector에는 커넥터 약관 이 적용됩니다.
이 항목에서는 Snowflake Connector for Google Analytics Aggregate Data 가 Google Analytics Data API 에서 데이터를 수집하는 방법과 샘플링이 수집된 데이터에 미치는 영향을 설명합니다.
수집 전략¶
커넥터는 다음 두 가지 수집 모드를 사용합니다.
보고서를 구성한 직후에 데이터의 초기 로드 가 발생합니다. 성공적인 초기 로드 는 오늘까지 선택한 시작 데이터로부터 수집된 데이터로 완료됩니다.
데이터의 지속적인 로드 는 초기 로드 완료 후에 시작됩니다. 증분 업데이트는 선택한 정기 일정에 따라 이루어집니다.
각 보고서의 수집은 독립적인 프로세스입니다. 수집 과정은 동시에 수행될 수 있습니다.
보고서를 구성하거나 동기화 일정 및 시작 날짜 를 선택하는 방법을 알아보려면 Snowflake Connector for Google Analytics Aggregate Data 인스턴스에 대한 데이터 수집 설정 섹션을 참조하십시오.
간격 길이 선택하기¶
Google Analytics Data API 를 사용하려면 각 요청의 날짜 범위(startDate 및 endDate)를 지정해야 합니다. 커넥터는 한 번의 수집 로드 중에 여러 요청을 할 수 있으며 필요에 따라 간격 길이를 조정할 수 있습니다. 기본 간격은 31일입니다. 다음과 같은 상황에서는 간격이 자동으로 단축될 수 있습니다.
API에서 오류를 반환했는데, 커넥터가 더 짧은 간격으로 요청을 재시도하여 오류를 완화할 수 있습니다.
API에서 샘플링된 데이터로 응답했습니다(보고서 구성 중에 샘플링 방지 옵션이 선택된 경우에만).
보고서에 대량의 데이터가 포함되어 있습니다. 이 경우, 후속 결과 페이지를 검색할 때 API 오류 위험을 줄이기 위해 간격이 단축됩니다.
사용자는 간격 길이를 설정할 수 없습니다.
수집 모니터링¶
수집 메타데이터는 CONNECTOR_STATS
뷰에서 사용할 수 있습니다. 더 보기: Snowflake Connector for Google Analytics Aggregate Data 모니터링하기.
SELECT * FROM PUBLIC.CONNECTOR_STATS ORDER BY COMPLETED_AT DESC;
METADATA
열에는 특히 Google Analytics Data API 에 대한 요청으로 전송된 요청 본문이 포함됩니다. 요청 본문에는 startDate 와 endDate 에 대한 정보가 포함됩니다.
STATUS
열은 다음 값 중 하나와 같을 수 있습니다.COMPLETED
- 성공적인 수집.CANCELED
- 간격 길이가 단축되었으며 조정된 날짜 범위로 수집이 계속됩니다.FAILED
- 수집이 실패하여 계속되지 않았습니다.
참고
FAILED
수집이라고 해서 반드시 데이터가 손실되었음을 의미하는 것은 아닙니다. 커넥터는 다음에 예정된 보고서 업데이트 중에 누락된 모든 데이터를 다운로드하려고 시도하여 일부 오류를 복구할 수 있습니다. 이어지는 수집 실행에 성공한 경우 커넥터는 누락된 모든 데이터를 수집했습니다.
수집 실행 실패에 대한 이메일 알림을 받으려면 알림을 설정합니다. 더 보기: Snowflake Connector for Google Analytics Aggregate Data 관리하기.
샘플링 정보¶
샘플링은 더 큰 데이터 세트에서 일부 데이터를 선택하고 분석하여 결과를 추정하는 과정입니다. 즉, 샘플링으로 인해 데이터 품질이 낮아진다는 의미입니다. 데이터 품질은 이 과정에서 사용된 샘플 수에 따라 달라집니다. 자세한 내용은 Google Analytics 샘플링 을 참조하십시오.
참고
기본적으로 커넥터는 샘플링을 피하려고 하지 않습니다. 이 설정은 초기 보고서 구성 중에만 변경할 수 있습니다.
샘플링 메타데이터 얻기¶
CONNECTOR_STATS
뷰의 METADATA
열에는 샘플링 메타데이터도 포함됩니다. 샘플링 메타데이터를 대상 테이블에 저장된 데이터와 결합할 수 있습니다.
샘플링된 데이터에 대한 정보를 얻으려면 다음 문을 사용합니다.
SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM <destination_table> as d
LEFT JOIN <connector_stats_view> as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
REPORT_1
이라는 보고서에 대한 다음 예와 같이 자리 표시자를 실제 값으로 바꿉니다.
SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM google_analytics_aggregate_data_dest_db.google_analytics_aggregate_data_dest_schema.report_1__raw as d
LEFT JOIN snowflake_connector_for_google_analytics_aggregate_data.public.connector_stats as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
결과에는 샘플링과 관련된 다음 정보가 포함됩니다.
이름 |
설명 |
---|---|
|
이 샘플링된 보고서에서 특정 날짜 범위 동안 읽은 총 이벤트 수입니다. |
|
이 보고서에서 특정 날짜 범위에 대해 분석할 수 있었던 이 속성의 데이터에 존재하는 총 이벤트 수입니다. |
|
분석된 이벤트 수 대비 분석할 수 있었던 이벤트 수의 비율입니다. |
Google Analytics 샘플링 메타데이터 설명서 에서는 샘플링 메타데이터 값의 의미에 대한 자세한 정보를 제공합니다.
참고
1.4.0 버전으로 업그레이드하기 전에 수행된 수집에 대한 메타데이터에는 샘플링 발생에 대한 정보가 포함되지 않습니다. samplingOccurred 플래그가 false와 같은 경우에만 데이터가 샘플링되지 않는 것이 확실합니다.