为目录创建外部云存储¶
本文描述了如何为以下云存储提供商创建 Apache Iceberg™ 表的外部云存储:
Amazon S3
Google 的云存储
Microsoft Azure 容器
在您可以在 Snowflake Open Catalog 账户中创建内部目录之前,您必须首先为其创建和配置外部云存储。
创建 Amazon S3 桶¶
登录 AWS 管理控制台。
从主页仪表板搜索并选择 S3。
选择 Create bucket。
对于 Bucket name,输入桶的名称。
配置您的存储桶的设置或使用默认设置。
选择 Create bucket。
搜索并选择您创建的存储桶。
要创建文件夹,请选择 Create folder。
注意
我们建议创建此文件夹作为最佳实践。
对于 Folder name,输入您要存储 Apache Iceberg™ 表的文件夹名称,然后选择 Create folder。
选择您创建的文件夹。
选择 Copy S3 URI,然后将 URI 存储以备后用。
注意
在 Open Catalog 中创建目录时,您在 Default base location 字段中输入 S3 URI。
创建一个云存储桶¶
以项目编辑者身份登录 Google Cloud Console。
在导航菜单中,选择 Solutions > All products。
在 Storage 下,选择 Cloud Storage。
选择 Create。
在 Get Started 下,为您的云存储桶输入一个名称。
可选:配置您的存储桶设置。
选择 Create。
在 Bucket details 页面,选择 CREATE FOLDER。
输入一个文件夹名称以存储 Apache Iceberg™ 表,然后选择 Create。
在 Bucket details 页面上,在您创建的文件夹名称旁边,选择 Copy,并存储路径以备后用。
注意
在 Open Catalog 中创建目录时,您需要在 Default base location 字段中输入您创建的文件夹的路径。
创建 Microsoft Azure 容器¶
要为您的 Apache Iceberg 表创建 Microsoft Azure 容器,请使用以下 Azure 云存储服务之一:
Blob 存储
Data Lake Storage Gen2
常规用途 v1
General-purpose v2
这些服务是 Open Catalog 支持用于存储集成的 Azure 云存储服务。存储集成是一个 Open Catalog 对象,用于存储为您的外部云存储生成的身份和访问管理 (IAM) 实体,并在您创建目录时创建。
第 1 步:创建存储账户¶
登录到 Azure。
在主页仪表板上,搜索并选择 Storage account。
选择 + Create。
对于 Resource group,选择一个资源组用于您的存储账户,或选择 Create new 来创建一个新的资源组。
对于 Storage account name,输入您的存储账户名称。
可选:启用分层命名空间以将存储账户用于 Azure 数据湖存储 Gen2 工作负载。有关更多信息,请参阅 创建存储账户 (https://learn.microsoft.com/en-us/azure/storage/common/storage-account-create?tabs=azure-portal#create-a-storage-account)。
可选:配置您的存储账户设置。
选择 Review + create。
选择 Create。
第 2 步:在您的存储账户中创建一个容器¶
在 Azure 中,导航到您创建的存储账户。
从左侧菜单中,选择 Data storage。
在数据存储下,选择 Containers。
选择 + Containers。
输入您的容器名称,然后选择 Create。
复制并保存您的容器名称。您在 Open Catalog 中创建目录时需要指定此名称。
可选:如果您正在使用分层命名空间并需要添加目录:
a.选择您创建的容器。
b.选择 + Add Directory。
c.输入目录名称,然后选择 Save。
d.复制并保存此目录的名称。您在 Open Catalog 中创建目录时需要指定此名称。
第 3 步:将端点路径复制到您的容器¶
在 Azure 中,导航到您创建的存储账户。
从左侧菜单中选择 Settings。
在设置中,选择 Endpoints。
复制并存储容器的主要端点路径:
如果您正在使用 Blob 存储,请在 Blob 服务下,为 Primary endpoint: Blob service 字段选择 Copy to clipboard 图标。
如果您使用的是 Azure 数据湖存储,请在数据湖存储下,为 Primary endpoint: Data Lake Storage 字段选择 Copy to clipboard 图标。
注意
在创建 Open Catalog 中的目录时,您需要在 Default base location 字段中输入容器的主要端点路径。在 Open Catalog 中创建目录的步骤包括如何将此路径格式化为 Default base location 字段所需格式的说明。