6 自动填充目录

本章包含有关创建和管理自动提取器以将数据提取到目录中的信息。

关于自动填充

您可以自动将元数据从源直接提取到数据目录的过程。

从数据源手动创建方案、表和分区既耗时又复杂。Oracle AI Data Platform Workbench 支持自动从数据源中提取元数据,并在元数据提取器中指定的目录中创建实体。

通过创建元数据提取器,可以自动填充目录中的此元数据。在创建提取器过程中,您可以指定要提取元数据的目标目录以及元数据源。您可以选择让提取器在指定的方案中创建表,或者让系统建议在未指定或未检测到方案的情况下创建表的位置。

自动填充可以从以下文件类型中提取元数据:

  • CSV
  • JSON
  • Avro
  • ORC
  • Parquet
  • Delta Lake

注意:

在创建元数据提取器时指定源文件夹时,叶文件夹中的所有文件都必须采用相同的数据格式。

注意:

自动填充仅支持下划线 ( _ ) 作为列名中的特殊字符。

您可以选择手动查看已提取的实体,也可以让系统根据已提取的元数据自动创建实体。提取元数据时,会在日志中捕获导致错误的实体。您可以查看日志以查看哪些实体遇到错误并执行操作进行更正。

通过手动复核实体,您可以接受或拒绝单个实体。您可以在“已审核实体”选项卡中查看已批准或已拒绝的实体。

提取器显示其状态,以便您了解他们当前处于哪个阶段以及是否需要用户干预。

提取器状态 说明
未启动 提取器尚未启动。启动提取器以开始。
正在运行 正在提取器
可供审查 提取器已运行,您已选择手动审批。必须复核并接受或批准提取的实体。
正在复查 提取器已运行,您已选择手动审批。某些实体已由用户复核或批准,但实体仍需要复核。
已完成 提取器已运行,实体已由用户自动批准或人工批准

如果您具有必备权限,则可以查看和使用其他用户创建的元数据提取器。

创建元数据提取器

您可以创建元数据提取器,以自动将方案和表等实体提取到目录。

  1. 在主页中,单击自动填充目录
  2. 单击 “创建方案”图标 创建元数据提取器
  3. 为元数据提取器输入名称。
  4. 目录下拉列表中选择目标目录。
  5. 源类型下拉列表中选择相应的源类型。
  6. 计算旁边,单击浏览并选择提取器应使用的集群。单击选择
  7. 对于对象存储 URI ,选择是浏览存储桶或要提取元数据的文件夹的区间,还是要指定存储桶或文件夹的 URI。
    • 对于选择存储桶或文件夹,单击浏览以选择要提取元数据的区间、存储桶和文件夹。
    • 对于手动输入 URI ,在提供的字段中输入 URI。
  8. 选择是使用手动审批创建实体还是由系统自动批准实体。
  9. 可选:选择创建外部表的方案。如果未指定方案,系统将根据文件夹结构在方案中创建表,如果未检测到方案,则在默认方案中创建表。

手动复核提取的元数据实体

选择在元数据提取器中创建实体的手动方法时,需要查看提取的实体,并批准或拒绝将其添加到目录。

  1. 在主页中,单击自动填充目录
  2. 单击元数据提取器的名称。
  3. 单击等待复查的实体选项卡。
  4. 对于每个实体,选择批准拒绝
  5. 可选:选择全部批准全部拒绝以将正在审核的所有实体设置为所选状态。
  6. 单击提交

查看已复核实体

您可以查看在元数据提取过程中手动或自动复查的实体,并查看该实体的日志详细信息、表详细信息或列方案。

  1. 在主页中,单击自动填充目录
  2. 单击元数据提取器的名称。
  3. 单击已审核实体选项卡。
  4. 在实体旁边,单击 “操作三个点”图标 操作
    • 单击查看表详细信息以查看所选实体的表详细信息。
    • 单击查看列方案以查看所选实体的列方案。
    • 单击查看日志以查看所选实体的元数据提取器日志。

查看元数据提取器详细信息

您可以查看元数据提取器的详细信息,以查看其状态、元数据创建方法、基本位置和创建详细信息。

  1. 在主页中,单击自动填充目录
  2. 单击元数据提取器的名称。
  3. 单击详细信息选项卡。

删除元数据提取器

可以删除不再需要的元数据提取器。

  1. 在主页中,单击自动填充目录
  2. 在要删除的元数据提取器旁边,单击 “操作三个点”图标 操作,然后单击删除
  3. 单击删除