Snowflake Connector for Google Analytics Raw Data 의 데이터 수집 설정하기¶

Google Analytics Raw Data용 Snowflake Connector에는 커넥터 약관 이 적용됩니다.

이 항목에서는 Snowflake 계정에서 Snowflake Connector for Google Analytics Raw Data 에 액세스하는 방법을 설명합니다.

참고

단일 속성은 한 번에 1개의 GCP 프로젝트에서만 수집할 수 있습니다. 이전에 구성된 속성에 대한 프로젝트를 변경하려면 현재 커넥터를 다시 설치해야 합니다. 이러한 제한 사항은 향후 제거될 예정입니다.

속성의 내보내기 설정을 변경하고 다른 GCP 프로젝트로 내보내기를 시작하면 이전 BigQuery 인스턴스에서 데이터를 수동으로 이동하여 새로 구성된 인스턴스에 통합해야 합니다.

Snowsight를 사용하여 데이터 수집 설정하기¶

Snowsight 를 사용하여 데이터 수집을 설정하려면 다음을 수행하십시오.

ACCOUNTADMIN 역할을 가진 사용자로 Snowsight 에 로그인합니다.
탐색 메뉴에서 Data Products » Apps 를 선택합니다.
Snowflake Connector for Google Analytics Raw Data 를 검색한 다음 커넥터에 알맞은 타일을 선택합니다.
Snowflake Connector for Google Analytics Raw Data 페이지에서 Data Sync 섹션으로 이동합니다.

그러면 모든 Google Analytics 속성의 목록이 표시됩니다.
수집하려는 속성을 선택합니다.
1. 수집하려는 속성을 검색합니다.
2. 선택하려는 속성 옆의 Status 열에서 확인란을 선택합니다.
3. Snowflake로 수집하려는 각 속성에 대해 이러한 단계를 반복합니다.
현재 선택한 속성을 보려면 Status 열의 머리글을 선택하십시오.
Snowflake 계정으로의 데이터 수집을 시작하려면 Start sync 을 선택하십시오.

선택한 속성이 속성 목록에 나타납니다.

Data Ingestion 상태는 Manage data synchronization 섹션의 오른쪽 상단에 표시됩니다.

각 속성에 대한 데이터 동기화는 두 개의 로딩을 생성합니다.

기록 데이터를 수집하는 초기 로딩입니다. 현재 날짜부터 시작하여 데이터 가용성에 도달한 첫 번째 날짜까지 거꾸로 실행됩니다.
현재 로딩 - 현재 날짜의 데이터를 수집하여 앞으로 실행합니다.

현재 데이터만 동기화하려면 워크시트를 통해 동기화할 수 있습니다.

Snowsight를 사용하여 속성을 활성화하면 커넥터가 가능한 모든 내보내기 유형에 대해 수집을 시도합니다. 특정 내보내기 유형만 수집하려는 경우(예: BigQuery 에 events_ 테이블만 있는 경우) SQL 문을 사용하여 수집할 수 있습니다.

참고

초기 로드가 있는 속성이 활성화되면 초기 로드를 비활성화할 수 있습니다. 반면, 속성이 초기 로드를 수행하지 않고 활성화된 경우 나중에 초기 로드를 활성화할 수 없습니다.

Snowsight를 사용하여 데이터 수집 수정하기¶

수집할 Google Analytics 테이블 또는 테이블의 동기화 일정을 수정하려면 다음을 수행하십시오.

ACCOUNTADMIN 역할을 가진 사용자로 Snowsight 에 로그인합니다.
탐색 메뉴에서 Data Products » Apps 를 선택합니다.
Snowflake Connector for Google Analytics Raw Data 를 검색한 다음 커넥터에 알맞은 타일을 선택합니다.
Snowflake Connector for Google Analytics Raw Data 페이지에서 Data Sync 섹션으로 이동합니다.
Edit properties 를 선택합니다.
수집하려는 테이블을 수정합니다.
1. 수집하려는 테이블을 검색합니다.
2. 선택하거나 선택 취소하려는 테이블 옆의 Status 열에서 확인란을 선택합니다.
Update data sync 를 선택합니다.

SQL 문을 사용하여 데이터 수집 설정하기¶

SQL 문을 사용하여 데이터 수집을 설정하려면 다음을 수행하십시오.

수집에 사용할 수 있는 속성을 나열합니다.
대상 데이터베이스를 준비합니다.
속성 수집을 활성화합니다.

참고

이러한 설정을 구성하려면 커넥터 설치 데이터베이스의 인스턴스 역할을 하는 데이터베이스의 PUBLIC 스키마에 정의된 저장 프로시저를 사용하십시오.

이러한 저장 프로시저를 호출하기 전에 해당 데이터베이스를 세션에 사용할 데이터베이스로 선택하십시오.

예를 들어 해당 데이터베이스의 이름이 snowflake_connector_for_google_analytics_raw_data 인 경우 다음 명령을 실행합니다.

USE DATABASE snowflake_connector_for_google_analytics_raw_data;

Copy

수집에 사용할 수 있는 속성 나열하기¶

지정된 GCP 프로젝트에서 사용 가능한 모든 속성을 나열하려면 다음 저장 프로시저를 호출하십시오.

CALL LIST_GA_PROPERTIES();

Copy

결과에는 승인된 계정으로 수집할 수 있는 모든 프로젝트와 속성이 표시됩니다. 결과가 반환되지 않으면 다음 사항을 확인하십시오.

Google Analytics에서 BigQuery로 데이터 내보내기가 구성되었는지 여부.
내보낸 데이터가 BigQuery에 표시되는지 여부.
사용된 서비스 계정/인증된 사용자에게 적절한 역할이 할당되었는지 여부.

데이터 내보내기를 설정하고 BigQuery에 데이터를 저장하는 사이에 최대 24시간이 걸릴 수 있습니다. 이러한 지연은 LIST_GA_PROPERTIES 프로시저에서 아무런 결과도 생성되지 않는 원인이 될 수 있습니다.

Google Analytics 내보내기를 비활성화한다고 해서 해당 속성이 LIST_GA_PROPERTIES 에 의해 생략되는 것은 아닙니다. 내보내기가 꺼진 경우에도 데이터는 BigQuery에 계속 유지될 수 있으며 커넥터를 통해 동기화될 수 있습니다.

대상 데이터베이스 준비하기¶

수집을 활성화하기 전에 대상 데이터베이스와 스키마 내에서 테이블과 뷰를 생성하는 액세스 권한을 커넥터에 부여해야 합니다.

GRANT USAGE ON DATABASE <destination database> TO APPLICATION <application name>;

GRANT USAGE ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>;

GRANT CREATE TABLE ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>;

GRANT CREATE VIEW ON SCHEMA <destination database>.<destination schema> TO APPLICATION <application name>;

Copy

속성 수집 활성화 또는 비활성화하기¶

Google Analytics의 특정 속성에 대한 데이터 동기화를 활성화하거나 비활성화하려면 다음 인자를 사용하여 ENABLE_PROPERTIES 저장 프로시저를 호출하십시오.

CALL ENABLE_PROPERTIES('<gcp_project>', ['<properties_to_configure>'], <enable_initial_load>, <exclude_nulls>, <disable_auto_reloads>, <enabled_export_types>);

Copy

여기서:

gcp_project

활성화된 속성의 GCP 프로젝트를 지정합니다.

properties_to_configure

작은따옴표로 쉼표로 구분된 Google Analytics 속성 이름 목록을 지정합니다.

analytics_ 접두사 없이 속성 이름을 사용하십시오.

enable_initial_load

현재 동기화와 병행하여 속성에 대한 모든 기록 데이터를 수집하는 초기 데이터 로딩을 활성화 또는 비활성화할지 여부를 나타내는 부울입니다.

이는 선택적 인자이며 기본값은 true 입니다.

이전에 속성이 활성화된 경우 이 플래그는 무시되고, 속성이 비활성화되어 중단된 지점부터 수집이 계속됩니다.

exclude_nulls

수집된 데이터에서 null 값이 포함된 필드를 제외할지 여부를 나타내는 선택적 부울입니다. 이 매개 변수를 true 로 설정하면 데이터 수집 처리량을 향상할 수 있습니다. 기본값은 false 입니다.

disable_auto_reloads

자동 다시 로드를 비활성화할지 여부를 나타내는 선택적 부울입니다. 자동 다시 로드에 대한 자세한 내용은 Snowflake Connector for Google Analytics Raw Data 의 데이터 수집 모델 섹션을 참조하십시오. 이 값을 true 로 설정하면 크레딧 소비를 줄일 수 있지만, 늦은 데이터는 Snowflake에 수집되지 않습니다. 이 속성은 FRESH_DAILY 내보내기 유형에 대해 true 로 설정할 수 없습니다. 기본값은 false 입니다.

enabled_export_types

커넥터가 데이터를 수집하려고 시도할 내보내기 유형의 선택적 목록입니다. 가능한 값은 DAILY, FRESH_DAILY, INTRADAY, USERS 및 PSEUDONYMOUS_USERS 입니다. 기본적으로 FRESH_DAILY 를 제외한 모든 내보내기 유형이 활성화됩니다.

예를 들어, 프로젝트 gcp_example_project 에서 property1, property2, property3 이라는 속성의 동기화를 활성화하려면 다음 쿼리를 실행합니다.

CALL ENABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3']);

Copy

초기 데이터 로딩을 수행하지 않고 속성을 활성화하려면 다음과 유사한 ENABLE_PROPERTIES 쿼리를 사용합니다.

CALL ENABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3'], false);

Copy

BigQuery 에 일별 및 사용자 데이터만 있는 경우 다음 쿼리를 실행하여 일중 내보내기를 명시적으로 생략할 수 있습니다.

CALL ENABLE_PROPERTIES(PROJECT_ID => 'gcp_example_project', PROPERTY_IDS => ['property1'], ENABLED_EXPORT_TYPES => ['DAILY', 'FRESH_DAILY', 'USERS', 'PSEUDONYMOUS_USERS']);

Copy

명명된 인자를 사용하여 특정 인자를 지정하고 나머지는 변경하지 않고 그대로 둘 수 있습니다. 예를 들어, 초기 로드로 속성을 활성화하고 null 값이 포함된 필드를 제외하려면 다음 쿼리를 실행합니다.

 CALL ENABLE_PROPERTIES(
    PROJECT_ID => 'gcp_example_project',
    PROPERTY_IDS => ['property1', 'property2', 'property3'],
    INITIAL_LOAD => TRUE,
    EXCLUDE_NULLS => TRUE
);

Copy

이러한 속성이 수집되지 않도록 하려면 다음 명령을 실행하십시오.

CALL DISABLE_PROPERTIES('gcp_example_project', ['property1','property2','property3']);

Copy

속성을 비활성화하면 동기화가 중지됩니다. 속성 동기화가 비활성화되면 시작되었지만 아직 완료되지 않은 전체 수집이 대상 데이터베이스에서 제거됩니다.

ENABLE_PROPERTIES 프로시저는 지정된 속성 이름을 ENABLED_PROPERTIES 뷰에 추가합니다.

초기 로드¶

새 속성을 활성화하면 커넥터는 새 이벤트 수집을 담당하는 현재 동기화와 병행하여 BigQuery 에서 찾은 모든 기록 데이터를 수집하기 시작합니다. 초기 로딩은 현재 날짜부터 데이터 가용성이 있는 첫 번째 날짜에 도달할 때까지 역순으로 실행됩니다.

이미 수집된 데이터 다시 로드하기¶

이미 수집된 데이터를 다시 로드하거나 전혀 수집되지 않은 데이터를 로드하려면(예: 초기 로드 없이 속성을 활성화했거나 BigQuery에 데이터가 없었지만 지금은 사용할 수 있기 때문) 다음 프로시저 중 하나를 호출할 수 있습니다.

CALL RELOAD_PROPERTY('<property id>');
Copy
이 프로시저는 BigQuery 에서 찾을 수 있는 가장 이른 테이블과 커넥터에 대해 마지막으로 수집된(또는 최종적으로 DATA_NOT_FOUND 로 표시된) 테이블 날짜 사이에서 주어진 속성의 모든 데이터(DAILY, FRESH_DAILY, INTRADAY, USERS 및 PSEUDONYMOUS_USERS) 다시 로드를 트리거합니다.
CALL RELOAD_PROPERTY('<property id>', <first date>, <last date>);
Copy
제시된 날짜 사이에 주어진 속성의 모든 데이터(DAILY, FRESH_DAILY, INTRADAY, USERS, PSEUDONYMOUS_USERS)를 다시 로드합니다.
CALL RELOAD_PROPERTY('<property id>', '<export type>', <first date>, <last date>);
Copy
제시된 날짜 사이에 주어진 속성의 DAILY, FRESH_DAILY, INTRADAY, USERS 또는 PSEUDONYMOUS_USERS 데이터를 다시 로드합니다.

참고

다시 로드 작업은 주 로드 작업과 동시에 처리됩니다.
날짜 범위가 겹치지 않는 한, 원하는 횟수만큼 속성을 다시 로드할 수 있습니다.
BigQuery에서 각 테이블을 다운로드한 후 데이터가 바뀝니다.
다시 로드하면 특정 날짜에 대해 BigQuery에 데이터가 있는 경우에만 데이터가 바뀝니다.

진행 중인 다시 로드 작업은 전용 뷰를 통해 관찰할 수 있습니다.

SELECT * FROM PUBLIC.ONOGOING_RELOADS;

Copy

진행 중인 다시 로드 작업을 취소하려면 다음 쿼리를 실행합니다.

CALL CANCEL_RELOAD_PROPERTY('<load id>');

Copy