6 自动填充目录
本章包含有关创建和管理自动提取器以将数据提取到目录中的信息。
关于自动填充
您可以自动将元数据从源直接提取到数据目录的过程。
从数据源手动创建方案、表和分区既耗时又复杂。Oracle AI Data Platform Workbench 支持自动从数据源中提取元数据,并在元数据提取器中指定的目录中创建实体。
通过创建元数据提取器,可以自动填充目录中的此元数据。在创建提取器过程中,您可以指定要提取元数据的目标目录以及元数据源。您可以选择让提取器在指定的方案中创建表,或者让系统建议在未指定或未检测到方案的情况下创建表的位置。
自动填充可以从以下文件类型中提取元数据:
- CSV
- JSON
- Avro
- ORC
- Parquet
- Delta Lake
注意:
在创建元数据提取器时指定源文件夹时,叶文件夹中的所有文件都必须采用相同的数据格式。注意:
自动填充仅支持下划线 ( _ ) 作为列名中的特殊字符。您可以选择手动查看已提取的实体,也可以让系统根据已提取的元数据自动创建实体。提取元数据时,会在日志中捕获导致错误的实体。您可以查看日志以查看哪些实体遇到错误并执行操作进行更正。
通过手动复核实体,您可以接受或拒绝单个实体。您可以在“已审核实体”选项卡中查看已批准或已拒绝的实体。
提取器显示其状态,以便您了解他们当前处于哪个阶段以及是否需要用户干预。
| 提取器状态 | 说明 |
|---|---|
| 未启动 | 提取器尚未启动。启动提取器以开始。 |
| 正在运行 | 正在提取器 |
| 可供审查 | 提取器已运行,您已选择手动审批。必须复核并接受或批准提取的实体。 |
| 正在复查 | 提取器已运行,您已选择手动审批。某些实体已由用户复核或批准,但实体仍需要复核。 |
| 已完成 | 提取器已运行,实体已由用户自动批准或人工批准 |
如果您具有必备权限,则可以查看和使用其他用户创建的元数据提取器。
创建元数据提取器
您可以创建元数据提取器,以自动将方案和表等实体提取到目录。
- 在主页中,单击自动填充目录。
- 单击
创建元数据提取器。 - 为元数据提取器输入名称。
- 从目录下拉列表中选择目标目录。
- 从源类型下拉列表中选择相应的源类型。
- 在计算旁边,单击浏览并选择提取器应使用的集群。单击选择。
- 对于对象存储 URI ,选择是浏览存储桶或要提取元数据的文件夹的区间,还是要指定存储桶或文件夹的 URI。
- 对于选择存储桶或文件夹,单击浏览以选择要提取元数据的区间、存储桶和文件夹。
- 对于手动输入 URI ,在提供的字段中输入 URI。
- 选择是使用手动审批创建实体还是由系统自动批准实体。
- 可选:选择创建外部表的方案。如果未指定方案,系统将根据文件夹结构在方案中创建表,如果未检测到方案,则在默认方案中创建表。
手动复核提取的元数据实体
选择在元数据提取器中创建实体的手动方法时,需要查看提取的实体,并批准或拒绝将其添加到目录。
- 在主页中,单击自动填充目录。
- 单击元数据提取器的名称。
- 单击等待复查的实体选项卡。
- 对于每个实体,选择批准或拒绝。
- 可选:选择全部批准或全部拒绝以将正在审核的所有实体设置为所选状态。
- 单击提交。