Modèle d’ingestion de données du Snowflake Connector for Google Analytics Raw Data

Ce chapitre fournit des informations sur les modèles d’ingestion de données pris en charge par le Snowflake Connector for Google Analytics Raw Data.

Exportation de Google Analytics vers BigQuery

Google Analytics prend en charge deux types d’exportations BigQuery :
  • Quotidiennement - Google Analytics exporte les données vers des tables nommées events_XXXXXX. Les tables sont créées une fois par jour, après la fin de la journée, une fois que tous les événements de la journée en question ont été collectés.

  • Streaming - Google Analytics exporte les données en continu tout au long de la journée et les stocke dans une table nommée events_intraday_XXXXXX.

Le connecteur prend en charge les deux types d’exportations et télécharge automatiquement toutes les tables qu’il trouve dans BigQuery, qu’elles soient quotidiennes ou intrajournalières. Aucune configuration supplémentaire n’est nécessaire.

Tables réceptrices

Pour chaque propriété, le connecteur enregistre les événements dans des tables propres à la propriété, qui sont créées dans une base de données et un schéma fournis dans la configuration du connecteur. Pour chacune des propriétés, deux tables sont créées : une pour l’exportation quotidienne et une autre pour l’exportation intrajournalière, nommées respectivement ANALYTICS_XXXXXXXXX et ANALYTICS_INTRADAY_XXXXXXXXX. Lorsque les deux types d’exportation sont configurés dans Google Analytics, le connecteur ingère les deux tables - d’abord la table intrajournalière, puis la table quotidienne.

Ingestion de table quotidienne

Le connecteur télécharge l’ensemble de la table en une seule fois lorsqu’il détecte que la table est présente dans BigQuery. Une fois la table téléchargée, elle n’est plus jamais réenvisagée pour un traitement ultérieur. Google met en garde sur le fait que les tables quotidiennes peuvent être mises à jour jusqu’à 72 heures après la création de la table. La version actuelle du connecteur ne permet pas de refléter ce type de mise à jour dans les tables réceptrices.

Ingestion intrajournalière

Le connecteur prend en charge le téléchargement des tables intrajournalières historiques (si elles sont présentes dans BigQuery) et l’ingestion en continu des tables intrajournalières qui continuent à recevoir des mises à jour.

Pour les jours passés, le connecteur télécharge les tables intrajournalières de la même manière que les tables quotidiennes : chaque table est téléchargée en entier, une table à la fois, jusqu’à ce que le processus atteigne les données de la journée en cours.

Lorsque le connecteur détecte qu’une table intrajournalière est la dernière dans BigQuery, il commence à traiter la table de manière incrémentielle. Cela signifie qu’il télécharge les lots de données entrants de la table tout au long de la journée, à un intervalle constant, qui est de 8 heures par défaut.

Lorsque l’une des conditions suivantes est remplie :

  • Une table du lendemain est apparue dans l’ensemble de données BigQuery

  • 24 heures se sont écoulées depuis le premier chargement de la table en question

Le connecteur effectue une dernière ingestion pour la table intrajournalière en question et passe à la suivante.

Note

Il se peut qu’un petit nombre d’événements ne soient pas ingérés ; il s’agit des événements qui sont retardés de plus de 10 minutes. La fonctionnalité à venir résoudra ce problème.

Utilisez CONFIGURE_INGESTION_INTERVAL pour modifier la valeur de l’intervalle par défaut si vous avez besoin de mises à jour plus fréquentes.