Modelo de ingestão Snowflake Connector for Google Analytics Aggregate Data

O Snowflake Connector para Google Analytics Aggregate Data está sujeito aos Termos do conector.

Este tópico descreve como o Snowflake Connector for Google Analytics Aggregate Data ingere dados da API Google Analytics Data e como a amostragem pode afetar os dados ingeridos.

Estratégia de ingestão

O conector usa dois modos de ingestão:

  • O carregamento inicial de dados ocorre logo após a configuração do relatório. O carregamento inicial bem-sucedido termina com os dados ingeridos de uma data de início escolhida até hoje.

  • O carregar contínuo de dados começa após a conclusão do carregamento inicial. Atualizações incrementais ocorrem em um cronograma regular escolhido.

A ingestão de cada relatório é um processo independente. Os processos de ingestão podem ser realizados em paralelo.

Consul Configuração da ingestão de dados para sua instância do Snowflake Connector for Google Analytics Aggregate Data para saber como configurar um relatório ou escolher um cronograma de sincronização e uma data de início.

Escolha da duração do intervalo

A API Google Analytics Data exige a especificação do intervalo de datas de cada solicitação (startDate e endDate). O conector pode fazer várias solicitações durante um carregamento de ingestão e ajustar a duração de intervalo conforme necessário. O intervalo padrão é 31 dias. O intervalo pode ser encurtado automaticamente nas seguintes situações:

  • A API respondeu com um erro, que o conector pode atenuar tentando solicitar novamente com um intervalo mais curto.

  • A API respondeu com dados amostrados (somente se a opção evitar amostragem foi escolhida durante a configuração do relatório).

  • O relatório contém uma grande quantidade de dados. Nesse caso, o intervalo é encurtado para reduzir o risco de erro da API ao recuperar páginas de resultados subsequentes.

O usuário não pode definir a duração de intervalo.

Monitoramento da ingestão

Os metadados de ingestão estão disponíveis na exibição CONNECTOR_STATS. Saiba mais: Monitoramento do Snowflake Connector for Google Analytics Aggregate Data.

SELECT * FROM PUBLIC.CONNECTOR_STATS ORDER BY COMPLETED_AT DESC;
Copy

A coluna METADATA contém, entre outras coisas, o corpo de solicitação que foi enviado em uma solicitação à API Google Analytics Data. O corpo de solicitação contém informações sobre startDate e endDate.

A coluna STATUS pode ser igual a um dos seguintes valores:
  • COMPLETED – uma ingestão bem-sucedida.

  • CANCELED – o comprimento do intervalo foi encurtado e a ingestão continuará com intervalos de datas ajustados.

  • FAILED – a ingestão falhou e não foi continuada.

Nota

A ingestão FAILED não significa necessariamente que os dados foram perdidos. O conector pode se recuperar de alguns erros tentando baixar todos os dados ausentes durante a próxima atualização de relatório agendada. Se as execuções de ingestão subsequentes forem bem-sucedidas, o conector ingerirá todos os dados ausentes.

Para receber notificações por e-mail sobre execuções de ingestão com falha, defina alertas. Saiba mais: Gerenciamento do Snowflake Connector for Google Analytics Aggregate Data.

Sobre amostragem

Amostragem é o processo de selecionar e analisar um subconjunto de dados de um conjunto de dados maior para extrapolar o resultado. Isso significa que a amostragem diminui a qualidade dos dados. A qualidade dos dados depende do número de amostras usadas no processo. Para obter mais informações, consulte Amostragem do Google Analytics.

Nota

Por padrão, o conector não tenta evitar a amostragem. Esta configuração pode ser alterada somente durante a configuração inicial do relatório.

Como obter metadados de amostragem

A coluna METADATA da exibição CONNECTOR_STATS também contém metadados de amostragem. Ela pode ser unida aos dados salvos em uma tabela de destino.

Use a seguinte instrução para obter informações sobre os dados amostrados:

SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM <destination_table> as d
LEFT JOIN <connector_stats_view> as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
Copy

Substitua os espaços reservados pelos valores reais, como no exemplo a seguir para um relatório chamado REPORT_1.

SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM google_analytics_aggregate_data_dest_db.google_analytics_aggregate_data_dest_schema.report_1__raw as d
LEFT JOIN snowflake_connector_for_google_analytics_aggregate_data.public.connector_stats as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
Copy

O resultado contém as seguintes informações relacionadas à amostragem.

Nome

Descrição

samplesReadCount

O número total de eventos lidos neste relatório de amostra para um intervalo de datas.

samplingSpaceSize

O número total de eventos presentes nos dados desta propriedade que poderiam ter sido analisados neste relatório para um intervalo de datas.

ratio

O número de eventos analisados em relação ao número de eventos que poderiam ter sido analisados.

A documentação de metadados de amostragem do Google Analytics fornece mais informações sobre o significado dos valores de metadados de amostragem.

Nota

Os metadados sobre a ingestão realizada antes da atualização para a versão 1.4.0 não contêm informações sobre a ocorrência de amostragem. É certo que os dados não serão amostrados somente se o sinalizador samplingOccurred for igual a falso.