Snowflake Connector for Google Analytics Raw Data 的数据引入模型¶
使用 Snowflake Connector for Google Analytics Raw Data 需遵守 连接器条款。
本主题提供有关 Snowflake Connector for Google Analytics Raw Data 支持的数据引入模型的信息。
从 Google Analytics 导出至 BigQuery¶
- Google Analytics 支持两种类型的 BigQuery 导出:
每日导出 – Google Analytics 将数据导出到名为
events_XXXXXX
的表中。收集完当天的所有事件后,表会在每天结束时创建一次。流式导出 - Google Analytics 全天不间断地导出数据,并将其存储到名为
events_intraday_XXXXXX
的表中。用户 – Google Analytics 会导出内容,包含与所收集事件相关的用户数据。表使用名称
users_XXXXXX
和pseudonymous_users_XXXXXX
存储在 BigQuery 中。
连接器支持这两种类型的导出,并能自动下载在 BigQuery 中找到的所有表,无论这些表是每日表还是日内表。无需额外配置。
接收器表¶
对于每个属性,连接器会将事件保存到属性特定的表中,这些表在连接器配置期间提供的数据库和架构中创建。
对于每个属性,最多可能创建四个汇总表,具体取决于启用了哪些导出类型。这些表的命名如下:
ANALYTICS_<propertyId>
ANALYTICS_INTRADAY_<propertyId>
USERS_<propertyId>
PSEUDONYMOUS_USERS_<propertyId>
每日表引入¶
当连接器识别到 BigQuery 中存在表时,会一次性下载整个表。Google 会提醒,每日表可在创建后 72 小时内更新。为确保数据一致性,连接器会在 72 小时后重新加载表(请注意,确切的重新加载时间取决于连接器的引入时间表)。表格创建 72 小时后,在 BigQuery 中所做的更新不会反映在 Snowflake 中。可以使用 RELOAD_PROPERTY 过程中的一个来手动重新加载此类表。
日内引入¶
连接器支持下载历史日内表(如果这些表存在于 BigQuery 中),以及持续引入仍在接受更新的日内表。
对于过去几天,连接器会以与每日表相同的方式下载日内表:每个表都是整体下载,一次下载一个表,直到下载到当日数据为止。
当连接器识别到日内表是 BigQuery 中的最后一个表时,就会开始增量处理该表。这意味着它全天以固定的间隔(默认为 8 小时)从表中下载传入的批量数据。
满足以下任一条件时:
BigQuery 数据集中出现了次日表
自给定表首次加载已过去 24 小时
连接器对给定的日内表进行最后一次引入,然后切换到下一个表。
备注
如果事件延迟超过 10 分钟,则可能有少量事件无法引入。日中表的增量加载完成后,连接器会立即验证是否存在任何丢失的事件,如果有,则安排表重新加载,确保 Snowflake 和 BigQuery 之间的数据一致性。
用户数据表引入¶
用户数据表的引入基于与每日表引入相同的机制。
日程安排¶
在以下情况下,连接器会检查 BigQuery 中是否存在新表,然后安排将这些表(如果是日中的增量引入,则为其中的部分)引入 Snowflake:
- 任务是根据配置的时间表触发的
默认情况下是每 8 小时一次
如果您需要更高/更低的更新频率,使用 CONFIGURE_INGESTION_INTERVAL 可以更改默认间隔值。
- 连接器完成了对上次预定表的引入
因此,这意味着日程安排比配置更频繁,因为每天应该至少进行一次引入,这意味着至少要额外检查一次。
特别是,当初始加载正在进行,并且有很多表需要引入时,在引入每个表之后,会触发日程安排机制。