Snowflake Connector for Google Analytics Raw Data 의 데이터 수집 설정하기¶
Google Analytics Raw Data용 Snowflake Connector에는 커넥터 약관 이 적용됩니다.
이 항목에서는 Snowflake 계정에서 Snowflake Connector for Google Analytics Raw Data 에 액세스하는 방법을 설명합니다.
참고
단일 속성은 한 번에 1개의 GCP 프로젝트에서만 수집할 수 있습니다. 이전에 구성된 속성에 대한 프로젝트를 변경하려면 현재 커넥터를 다시 설치해야 합니다. 이러한 제한 사항은 향후 제거될 예정입니다.
속성의 내보내기 설정을 변경하고 다른 GCP 프로젝트로 내보내기를 시작하면 이전 BigQuery 인스턴스에서 데이터를 수동으로 이동하여 새로 구성된 인스턴스에 통합해야 합니다.
Snowsight를 사용하여 데이터 수집 설정하기¶
Snowsight 를 사용하여 데이터 수집을 설정하려면 다음을 수행하십시오.
ACCOUNTADMIN 역할을 가진 사용자로 Snowsight 에 로그인합니다.
탐색 메뉴에서 Data Products » Apps 를 선택합니다.
Snowflake Connector for Google Analytics Raw Data 를 검색한 다음 커넥터에 알맞은 타일을 선택합니다.
Snowflake Connector for Google Analytics Raw Data 페이지에서 Data Sync 섹션으로 이동합니다.
그러면 모든 Google Analytics 속성의 목록이 표시됩니다.
수집하려는 속성을 선택합니다.
수집하려는 속성을 검색합니다.
선택하려는 속성 옆의 Status 열에서 확인란을 선택합니다.
Snowflake로 수집하려는 각 속성에 대해 이러한 단계를 반복합니다.
현재 선택한 속성을 보려면 Status 열의 머리글을 선택하십시오.
Snowflake 계정으로의 데이터 수집을 시작하려면 Start sync 을 선택하십시오.
선택한 속성이 속성 목록에 나타납니다.
Data Ingestion 상태는 Manage data synchronization 섹션의 오른쪽 상단에 표시됩니다.
각 속성에 대한 데이터 동기화는 초기 로드로 시작되어 속성에 대한 모든 기록 데이터를 수집한 다음 현재 동기화로 진행됩니다. 현재 데이터만 동기화하려면 워크시트를 통해 동기화할 수 있습니다.
참고
초기 로드가 있는 속성이 활성화되면 초기 로드를 비활성화할 수 있습니다. 반면, 속성이 초기 로드를 수행하지 않고 활성화된 경우 나중에 초기 로드를 활성화할 수 없습니다.
Snowsight를 사용하여 데이터 수집 수정하기¶
수집할 Google Analytics 테이블 또는 테이블의 동기화 일정을 수정하려면 다음을 수행하십시오.
ACCOUNTADMIN 역할을 가진 사용자로 Snowsight 에 로그인합니다.
탐색 메뉴에서 Data Products » Apps 를 선택합니다.
Snowflake Connector for Google Analytics Raw Data 를 검색한 다음 커넥터에 알맞은 타일을 선택합니다.
Snowflake Connector for Google Analytics Raw Data 페이지에서 Data Sync 섹션으로 이동합니다.
Edit properties 를 선택합니다.
수집하려는 테이블을 수정합니다.
수집하려는 테이블을 검색합니다.
선택하거나 선택 취소하려는 테이블 옆의 Status 열에서 확인란을 선택합니다.
Update data sync 를 선택합니다.
SQL 문을 사용하여 데이터 수집 설정하기¶
SQL 문을 사용하여 데이터 수집을 설정하려면 다음을 수행하십시오.
참고
이러한 설정을 구성하려면 커넥터 설치 데이터베이스의 인스턴스 역할을 하는 데이터베이스의 PUBLIC 스키마에 정의된 저장 프로시저를 사용하십시오.
이러한 저장 프로시저를 호출하기 전에 해당 데이터베이스를 세션에 사용할 데이터베이스로 선택하십시오.
예를 들어 해당 데이터베이스의 이름이 snowflake_connector_for_google_analytics_raw_data
인 경우 다음 명령을 실행합니다.
USE DATABASE snowflake_connector_for_google_analytics_raw_data;
수집에 사용할 수 있는 속성 나열하기¶
지정된 GCP 프로젝트에서 사용 가능한 모든 속성을 나열하려면 다음 저장 프로시저를 호출하십시오.
CALL LIST_GA_PROPERTIES();
결과에는 승인된 계정으로 수집할 수 있는 모든 프로젝트와 속성이 표시됩니다. 결과가 반환되지 않으면 다음 사항을 확인하십시오.
Google Analytics에서 BigQuery로 데이터 내보내기가 구성되었는지 여부.
내보낸 데이터가 BigQuery에 표시되는지 여부.
사용된 서비스 계정/인증된 사용자에게 적절한 역할이 할당되었는지 여부.
데이터 내보내기를 설정하고 BigQuery에 데이터를 저장하는 사이에 최대 24시간이 걸릴 수 있습니다. 이러한 지연은 LIST_GA_PROPERTIES
프로시저에서 아무런 결과도 생성되지 않는 원인이 될 수 있습니다.
Google Analytics 내보내기를 비활성화한다고 해서 해당 속성이 LIST_GA_PROPERTIES
에 의해 생략되는 것은 아닙니다. 내보내기가 꺼진 경우에도 데이터는 BigQuery에 계속 유지될 수 있으며 커넥터를 통해 동기화될 수 있습니다.
대상 데이터베이스 준비하기¶
수집을 활성화하기 전에 대상 데이터베이스와 스키마 내에서 테이블과 뷰를 생성하는 액세스 권한을 커넥터에 부여해야 합니다.
GRANT USAGE ON DATABASE <destination database> TO APPLICATION <application name>; GRANT USAGE ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>; GRANT CREATE TABLE ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>; GRANT CREATE VIEW ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>;
속성 수집 활성화 또는 비활성화하기¶
Google Analytics의 특정 속성에 대한 데이터 동기화를 활성화하거나 비활성화하려면 다음 인자를 사용하여 ENABLE_PROPERTIES
저장 프로시저를 호출하십시오.
CALL ENABLE_PROPERTIES('<gcp_project>', ['<properties_to_configure>'], <enable_initial_load>, <exclude_nulls>, <disable_auto_reloads>);
여기서:
gcp_project
활성화된 속성의 GCP 프로젝트를 지정합니다.
properties_to_configure
작은따옴표로 쉼표로 구분된 Google Analytics 속성 이름 목록을 지정합니다.
analytics_
접두사 없이 속성 이름을 사용하십시오.enable_initial_load
속성에 대한 모든 기록 데이터를 수집한 다음 현재 동기화를 진행하는 초기 데이터 로드를 활성화할지 또는 비활성화할지 여부를 나타내는 부울입니다.
이는 선택적 인자이며 기본값은
true
입니다.이전에 속성이 활성화된 경우 이 플래그는 무시되고, 속성이 비활성화되어 중단된 지점부터 수집이 계속됩니다.
exclude_nulls
수집된 데이터에서 null 값이 포함된 필드를 제외할지 여부를 나타내는 선택적 부울입니다. 이 매개 변수를
true
로 설정하면 데이터 수집 처리량을 향상할 수 있습니다. 기본값은false
입니다.disable_auto_reloads
자동 다시 로드를 비활성화할지 여부를 나타내는 선택적 부울입니다. 자동 다시 로드에 대한 자세한 내용은 Snowflake Connector for Google Analytics Raw Data 의 데이터 수집 모델 섹션을 참조하십시오. 이 값을
true
로 설정하면 크레딧 소비를 줄일 수 있지만, 늦은 데이터는 Snowflake에 수집되지 않습니다. 기본값은false
입니다.
예를 들어 프로젝트 gcp_example_project
에서 property1
, property2
, property3
이라는 속성의 동기화를 활성화하려면 다음 명령을 실행하십시오.
CALL ENABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3']);
초기 데이터 로딩을 수행하지 않고 속성을 활성화하려면 다음과 유사한 ENABLE_PROPERITES 쿼리를 사용합니다.
CALL ENABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3'], false);
명명된 인자를 사용하여 특정 인자를 지정하고 나머지는 변경하지 않고 그대로 둘 수 있습니다. 예를 들어, 초기 로드로 속성을 활성화하고 null 값이 포함된 필드를 제외하려면 다음 쿼리를 실행합니다.
CALL ENABLE_PROPERTIES( PROJECT_ID => 'gcp_example_project', PROPERTY_IDS => ['property1', 'property2', 'property3'], INITIAL_LOAD => TRUE, EXCLUDE_NULLS => TRUE );
이러한 속성이 수집되지 않도록 하려면 다음 명령을 실행하십시오.
CALL DISABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3']);
속성을 비활성화하면 동기화가 중지됩니다. 속성 동기화가 비활성화되면 시작되었지만 아직 완료되지 않은 전체 수집이 대상 데이터베이스에서 제거됩니다.
ENABLE_PROPERTIES
프로시저는 지정된 속성 이름을 ENABLED_PROPERTIES
뷰에 추가합니다.
초기 로드¶
새 속성을 활성화한 후 커넥터는 초기 로드 모드로 들어갑니다. 이는 새 이벤트를 수집하기 전에 BigQuery에서 찾은 모든 기록 데이터가 수집된다는 의미입니다.
이미 수집된 데이터 다시 로드하기¶
이미 수집된 데이터를 다시 로드하거나 전혀 수집되지 않은 데이터를 로드하려면(예: 초기 로드 없이 속성을 활성화했거나 BigQuery에 데이터가 없었지만 지금은 사용할 수 있기 때문) 다음 프로시저 중 하나를 호출할 수 있습니다.
CALL RELOAD_PROPERTY('<property id>');이 프로시저는 BigQuery에서 찾을 수 있는 가장 이른 테이블과 커넥터에 대해 마지막으로 수집된(또는 최종적으로
DATA_NOT_FOUND
로 표시된) 테이블 날짜 사이에서 주어진 속성의 모든 데이터(DAILY
,INTRADAY
,USERS
,PSEUDONYMOUS_USERS
) 다시 로드를 트리거합니다.CALL RELOAD_PROPERTY('<property id>', <first date>, <last date>);제시된 날짜 사이에 주어진 속성의 모든 데이터(
DAILY
,INTRADAY
,USERS
,PSEUDONYMOUS_USERS
)를 다시 로드합니다.CALL RELOAD_PROPERTY('<property id>', '<export type>', <first date>, <last date>);제시된 날짜 사이에 주어진 속성의
DAILY
,INTRADAY
,USERS
또는PSEUDONYMOUS_USERS
데이터를 다시 로드합니다.
참고
다시 로드 작업은 주 로드 작업과 동시에 처리됩니다.
날짜 범위가 겹치지 않는 한, 원하는 횟수만큼 속성을 다시 로드할 수 있습니다.
BigQuery에서 각 테이블을 다운로드한 후 데이터가 바뀝니다.
다시 로드하면 특정 날짜에 대해 BigQuery에 데이터가 있는 경우에만 데이터가 바뀝니다.
진행 중인 다시 로드 작업은 전용 뷰를 통해 관찰할 수 있습니다.
SELECT * FROM PUBLIC.ONOGOING_RELOADS;
진행 중인 다시 로드 작업을 취소하려면 다음 쿼리를 실행합니다.
CALL CANCEL_RELOAD_PROPERTY('<load id>');