Modèle d’ingestion Snowflake Connector for Google Analytics Aggregate Data

Snowflake Connector for Google Analytics Aggregate Data est soumis aux Conditions de connecteur.

Cette rubrique explique comment Snowflake Connector for Google Analytics Aggregate Data ingère des données de l”API Google Analytics Data et comment l’échantillonnage peut affecter les données ingérées.

Stratégie d’ingestion

Le connecteur utilise deux modes d’ingestion :

  • Le chargement initial des données se produit directement après la configuration du rapport. Le chargement initial correct se termine avec les données ingérées à partir de données de début sélectionnées jusqu’à aujourd’hui.

  • Le chargement continu des données commence à la fin du chargement initial. Les mises à jour incrémentielles se produisent selon une planification régulière sélectionnée.

L’ingestion de chaque rapport est un processus indépendant. Les processus d’ingestion peuvent être effectués en parallèle.

Voir Configurer l’ingestion de données de votre instance Snowflake Connector for Google Analytics Aggregate Data pour découvrir comment configurer un rapport ou sélectionner une planification de synchronisation et une date de début.

Choix de la longueur d’intervalle

L”API Google Analytics Data nécessite la spécification de la plage de dates de chaque requête (startDate (Date de début) et endDate (Date de fin)). Le connecteur peut effectuer plusieurs requêtes au cours d’un chargement d’ingestion et ajuster la longueur d’intervalle selon les besoins. L’intervalle par défaut est de 31 jours. L’intervalle peut être automatiquement raccourci dans les situations suivantes :

  • L’API a répondu par une erreur, que le connecteur peut atténuer en relançant la requête avec un intervalle plus court.

  • L’API a répondu avec des données échantillonnées (uniquement si l’option éviter l’échantillonnage a été sélectionnée lors de la configuration du rapport).

  • Le rapport contient une grande quantité de données. Dans ce cas, l’intervalle est raccourci pour réduire le risque d’une erreur d’API lors de la récupération des pages de résultats suivantes.

L’utilisateur ne peut pas définir la longueur d’intervalle.

Surveillance de l’ingestion

Les métadonnées d’ingestion sont disponibles dans la vue CONNECTOR_STATS. Pour en savoir plus : Surveillance du Snowflake Connector for Google Analytics Aggregate Data.

SELECT * FROM PUBLIC.CONNECTOR_STATS ORDER BY COMPLETED_AT DESC;
Copy

La colonne METADATA contient, entre autres, le corps de la requête qui a été envoyé dans une requête à l”API Google Analytics Data. Le corps de la requête contient des informations sur startDate (Date de début) et endDate (Date de fin).

La colonne STATUS peut être égale à l’une des valeurs suivantes :
  • COMPLETED- ingestion correctement effectuée.

  • CANCELED- la durée d’intervalle a été raccourcie et l’ingestion se poursuivra en fonction des plages de dates ajustées.

  • FAILED- l’ingestion a échoué et n’a pas été poursuivie.

Note

Une ingestion à l’état FAILED ne signifie pas forcément que les données ont été perdues. Le connecteur peut récupérer les données après certaines erreurs en essayant de télécharger l’ensemble des données manquantes lors de la mise à jour du rapport planifiée suivante. Si les cycles d’ingestion suivants se sont correctement effectués, le connecteur a ingéré toutes les données manquantes.

Pour recevoir des notifications par e-mail concernant les échecs de cycles d’ingestion, configurez des alertes. Pour en savoir plus : Gestion de Snowflake Connector for Google Analytics Aggregate Data.

À propos de l’échantillonnage

L’échantillonnage est le processus de sélection et d’analyse d’un sous-ensemble de données à partir d’un jeu de données plus volumineux afin d’extrapoler le résultat. Cela signifie que l’échantillonnage réduit la qualité des données. La qualité des données dépend du nombre d’échantillons utilisés dans le processus. Pour plus d’informations, voir Échantillonnage Google Analytics.

Note

Par défaut, le connecteur n’essaie pas d’éviter l’échantillonnage. Ce paramètre ne peut être modifié que lors de la configuration initiale du rapport.

Obtention de métadonnées d’échantillonnage

La colonne METADATA de la vue CONNECTOR_STATS contient également des métadonnées d’échantillonnage. Elle peut être jointe aux données enregistrées dans une table de destination.

Utilisez l’instruction suivante pour obtenir des informations sur les données échantillonnées :

SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM <destination_table> as d
LEFT JOIN <connector_stats_view> as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
Copy

Remplacez les espaces réservés par les valeurs réelles comme dans l’exemple suivant pour un rapport nommé REPORT_1.

SELECT d.date, d.raw, d.last_update_date, cs.metadata:samplingMetadata:samplesReadCount::INTEGER as samplesReadCount, cs.metadata:samplingMetadata:samplingSpaceSize::INTEGER as samplingSpaceSize, samplesReadCount/samplingSpaceSize as ratio
FROM google_analytics_aggregate_data_dest_db.google_analytics_aggregate_data_dest_schema.report_1__raw as d
LEFT JOIN snowflake_connector_for_google_analytics_aggregate_data.public.connector_stats as cs
ON d.ingestion_run_id = cs.run_id
WHERE cs.metadata:samplingMetadata:samplingOccurred::BOOLEAN = true;
Copy

Le résultat contient les informations suivantes relatives à l’échantillonnage.

Nom

Description

samplesReadCount

Nombre total d’événements lus dans ce rapport échantillonné pour une plage de dates.

samplingSpaceSize

Nombre total d’événements présents dans les données de cette propriété qui auraient pu être analysés dans ce rapport pour une plage de dates.

ratio

Nombre d’événements analysés par rapport au nombre d’événements qui auraient pu être analysés.

La documentation sur les métadonnées d’échantillonnage Google Analytics fournit plus d’informations sur la signification des valeurs des métadonnées d’échantillonnage.

Note

Les métadonnées sur l’ingestion effectuée avant la mise à niveau à la version 1.4.0 ne contiennent pas d’informations sur l’occurrence de l’échantillonnage. Il est certain que les données ne sont échantillonnées que si l’indicateur samplingOccurred (Échantillon effectué) est égal à false.