使用主目录管理

4 使用主目录进行管理

本章帮助您使用和了解主目录、标准目录和外部目录、方案、表和卷。

主题：

主目录

AI Data Platform Workbench 中的主目录是顶层实体，可用于通过提供集中视图来管理数据和元数据。

主目录是标准目录和外部目录的容器。您可以在 Oracle Autonomous AI Lakehouse 、 OCI Object Storage 和 Kafka 中使用其数据资产创建目录。主目录允许您对其子对象强制实施权限。

标准目录：标准目录是方案（数据库）的逻辑容器，用户可以在方案中创建表、视图和卷。标准目录管理所有子对象的元数据的生命周期。
外部目录：外部目录由外部数据源（例如 Oracle Autonomous AI Lakehouse 、Kafka 等）提供支持。对于外部目录，元数据将从外部源同步，用户可以使用 catalog_name.schema_name.table_name 等 3 部分名称在外部源中查询数据。如果是外部目录，则元数据生命周期由外部源管理，主目录将保存元数据副本。

主目录的使用案例

可以利用主目录来帮助进行数据准备和分析、存储非结构化数据等。

使用 SQL 语法查询和分析数据

在标准目录中创建托管或外部表，以使用熟悉的类似 SQL 的语法查询和分析数据，从而更轻松地探索和理解 AI 数据平台中存储的数据。

数据准备

利用托管/外部表中存储的结构化数据格式为机器学习模型准备数据，从而更轻松地清理、转换和特征工程师数据。这有助于为特征工程和模型培训提供高效的数据访问和处理

时间差旅

开放表格式支持模式演化。数据的结构会随着时间的推移而改变，而不会重写整个数据集。这些表可以进行版本控制，用户可以运行时间差旅查询，以便查询数据的历史版本，从而促进追溯分析和数据恢复。

ACID 事务处理支持

开放表格式支持完整的创建、读取、更新和删除 (CRUD) 操作，确保数据一致性并启用数据更新。表可用于存储和管理事务处理数据，使应用程序能够跟踪对数据的更改。

高效读取和写入数据

可以对 AI 数据平台工作台中的表进行分区，以实现高效的数据访问和处理，特别是对于大型数据集。

存储和处理非结构化数据

创建托管卷或外部卷来存储非结构化数据，以便使用 Apache Spark 进行处理。

跨租户外部表和卷

通过跨租户外部表和卷，您可以安全地访问和查询存储在不同租户中的数据，而无需执行复杂的 ETL 管道或手动数据移动。

AI Data Platform Workbench 支持用户创建跨租户外部表和卷，这是一种功能强大的功能，旨在消除数据孤岛并简化协作。

跨租户的优势包括：

零重复数据：您可以访问所在位置的实时数据，从而节省存储成本并确保“单一信息源”的完整性。
简化监管：您可以使用 IAM 策略和 AI Data Platform Workbench 访问控制来跨边界管理权限。

跨租户访问要求

要为外部表和卷设置跨租户访问，需要在提供商租户和使用者租户中配置的特定 IAM 策略。

在提供商租户中，您需要在 Oracle Cloud Infrastructure (OCI) 控制台中创建 IAM 动态组，该控制台将您的特定 AI 数据平台工作台资源作为成员。有关更多信息，请参见 Managing Dynamic Groups 。

创建 IAM 动态组后，需要在提供程序租户中配置 IAM 策略：

在 IAM 中为使用者租户、用户组和动态组定义资源
为使用者租户资源编写 admit IAM 策略

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

配置提供商租户 IAM 策略后，您需要配置使用者租户 IAM 策略：

在 IAM 中为提供商租户定义资源
为本地使用者租户资源编写 endorse IAM 策略

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

配置提供商和使用者租户 IAM 策略后，您可以使用 SQL 语法创建跨租户外部表和卷。有关详细信息，请参阅 SQL 语法。

示例：使用 SQL 创建跨租户表

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

限制

AI Data Platform Workbench 不支持从 UI 创建跨租户外部表或外部卷。