4 使用主目录进行管理

本章帮助您使用和了解主目录、标准目录和外部目录、方案、表和卷。

主目录

AI Data Platform Workbench 中的主目录是顶层实体,可用于通过提供集中视图来管理数据和元数据。

主目录是标准目录和外部目录的容器。您可以在 Oracle Autonomous AI LakehouseOCI Object Storage 和 Kafka 中使用其数据资产创建目录。主目录允许您对其子对象强制实施权限。

标准目录和外部目录具有不同的功能和用例:

  • 标准目录:标准目录是方案(数据库)的逻辑容器,用户可以在方案中创建表、视图和卷。标准目录管理所有子对象的元数据的生命周期。
  • 外部目录:外部目录由外部数据源(例如 Oracle Autonomous AI Lakehouse 、Kafka 等)提供支持。对于外部目录,元数据将从外部源同步,用户可以使用 catalog_name.schema_name.table_name 等 3 部分名称在外部源中查询数据。如果是外部目录,则元数据生命周期由外部源管理,主目录将保存元数据副本。

主目录的使用案例

可以利用主目录来帮助进行数据准备和分析、存储非结构化数据等。

使用 SQL 语法查询和分析数据

在标准目录中创建托管或外部表,以使用熟悉的类似 SQL 的语法查询和分析数据,从而更轻松地探索和理解 AI 数据平台中存储的数据。

数据准备

利用托管/外部表中存储的结构化数据格式为机器学习模型准备数据,从而更轻松地清理、转换和特征工程师数据。这有助于为特征工程和模型培训提供高效的数据访问和处理

时间差旅

开放表格式支持模式演化。数据的结构会随着时间的推移而改变,而不会重写整个数据集。这些表可以进行版本控制,用户可以运行时间差旅查询,以便查询数据的历史版本,从而促进追溯分析和数据恢复。

ACID 事务处理支持

开放表格式支持完整的创建、读取、更新和删除 (CRUD) 操作,确保数据一致性并启用数据更新。表可用于存储和管理事务处理数据,使应用程序能够跟踪对数据的更改。

高效读取和写入数据

可以对 AI 数据平台工作台中的表进行分区,以实现高效的数据访问和处理,特别是对于大型数据集。

存储和处理非结构化数据

创建托管卷或外部卷来存储非结构化数据,以便使用 Apache Spark 进行处理。