Snowflake Connector for Google Analytics Raw Data 的数据引入模型

使用 Snowflake Connector for Google Analytics Raw Data 需遵守 连接器条款

本主题提供有关 Snowflake Connector for Google Analytics Raw Data 支持的数据引入模型的信息。

从 Google Analytics 导出至 BigQuery

Google Analytics 支持两种类型的 BigQuery 导出:
  • 每日导出 – Google Analytics 将数据导出到名为 events_XXXXXX 的表中。收集完当天的所有事件后,表会在每天结束时创建一次。

  • 流式导出 - Google Analytics 全天不间断地导出数据,并将其存储到名为 events_intraday_XXXXXX 的表中。

  • 用户 – Google Analytics 会导出内容,包含与所收集事件相关的用户数据。表使用名称 users_XXXXXXpseudonymous_users_XXXXXX 存储在 BigQuery 中。

连接器支持这两种类型的导出,并能自动下载在 BigQuery 中找到的所有表,无论这些表是每日表还是日内表。无需额外配置。

接收器表

对于每个属性,连接器会将事件保存到属性特定的表中,这些表在连接器配置期间提供的数据库和架构中创建。

对于每个属性,最多可能创建四个汇总表,具体取决于启用了哪些导出类型。这些表的命名如下:

  • ANALYTICS_<propertyId>

  • ANALYTICS_INTRADAY_<propertyId>

  • USERS_<propertyId>

  • PSEUDONYMOUS_USERS_<propertyId>

每日表引入

当连接器识别到 BigQuery 中存在表时,会一次性下载整个表。Google 会提醒,每日表可在创建后 72 小时内更新。为确保数据一致性,连接器会在 72 小时后重新加载表(请注意,确切的重新加载时间取决于连接器的引入时间表)。表格创建 72 小时后,在 BigQuery 中所做的更新不会反映在 Snowflake 中。可以使用 RELOAD_PROPERTY 过程中的一个来手动重新加载此类表。

日内引入

连接器支持下载历史日内表(如果这些表存在于 BigQuery 中),以及持续引入仍在接受更新的日内表。

对于过去几天,连接器会以与每日表相同的方式下载日内表:每个表都是整体下载,一次下载一个表,直到下载到当日数据为止。

当连接器识别到日内表是 BigQuery 中的最后一个表时,就会开始增量处理该表。这意味着它全天以固定的间隔(默认为 8 小时)从表中下载传入的批量数据。

满足以下任一条件时:

  • BigQuery 数据集中出现了次日表

  • 自给定表首次加载已过去 24 小时

连接器对给定的日内表进行最后一次引入,然后切换到下一个表。

备注

如果事件延迟超过 10 分钟,则可能有少量事件无法引入。日中表的增量加载完成后,连接器会立即验证是否存在任何丢失的事件,如果有,则安排表重新加载,确保 Snowflake 和 BigQuery 之间的数据一致性。

用户数据表引入

用户数据表的引入基于与每日表引入相同的机制。

日程安排

在以下情况下,连接器会检查 BigQuery 中是否存在新表,然后安排将这些表(如果是日中的增量引入,则为其中的部分)引入 Snowflake:

  • 任务是根据配置的时间表触发的
    • 默认情况下是每 8 小时一次

    • 如果您需要更高/更低的更新频率,使用 CONFIGURE_INGESTION_INTERVAL 可以更改默认间隔值。

  • 连接器完成了对上次预定表的引入
    • 因此,这意味着日程安排比配置更频繁,因为每天应该至少进行一次引入,这意味着至少要额外检查一次。

    • 特别是,当初始加载正在进行,并且有很多表需要引入时,在引入每个表之后,会触发日程安排机制。

语言: 中文