准备文档以使用 OCI 文档理解模型进行分析

可以使用 OCI 对象存储中的存储桶来存储要分析的文档,然后创建数据集以在 Oracle Analytics 中访问这些文档。

通常将输入文档和 AI 模型存储在相同的 Oracle Cloud 账户(租户)中,这样就可以更轻松地在 Oracle Analytics 中进行设置。

如果输入文档和 AI 模型存储在不同的租户中:
  • 确保包含输入文档的存储桶的可见性为公共。请参见更改存储桶的可见性
  • 使用各个文档的 URL 填充数据流的输入数据集,而不是使用存储文档的 OCI 存储桶的单个 URL。
在单次运行中,使用预训练模型时,Oracle Analytics 数据流最多可以处理 10,000 个文档;使用定制模型时,Oracle Analytics 数据流最多可以处理 2,000 个文档。如果文档数超过单次运行可以处理的最大文档数,则在 OCI 的对象存储和归档存储中,创建多个存储桶,每个存储桶中包含的文档数不超过最大文档数。然后,为每个存储桶创建单独的数据集和数据流,并使用序列来顺序处理数据流。

您可以使用可供 OCI 用户访问且符合 OCI 一般文档限制的专用或公共存储桶。请参见 OCI 文档。

  1. 在 OCI 控制台中,导航到对象存储和归档存储,然后创建存储桶来存储文档。

  2. 对象存储和归档存储区域中,单击存储桶名称,然后在页面的对象区域下,单击上载并上载文档。
    确保该存储桶不包含您不想要处理的任何无关文件。Oracle Analytics 处理存储桶中的每个文件。
  3. 对于每个存储桶,将存储桶 URL 添加到逗号分隔值 (CSV) 文件。
    1. 在对象存储中,选择存储桶以在“对象”对话框中显示文档。
    2. 从浏览器的 URL 栏复制 URL。
    3. 创建包含 IDBucket NameBucket URL 字段的 CSV 文件。
    4. 将存储桶 URL 作为 Bucket URL 值粘贴到 CSV 文件中。
      或者,如果输入文档和 AI 模型存储在不同的租户中,将其逐个添加到 CSV 文件。
      创建包含 IDDocument NameDocument URL 字段的 CSV 文件。对于对象存储中的每个文档,单击省略号图标 省略号图标,选择查看对象详细信息,然后复制名称值和 URL 路径 (URI) 值。

      粘贴“名称”值作为 Document Name,粘贴“URL 路径 (URI)”值作为 Document URL。

  4. 在 Oracle Analytics 中,对用于存储文档的每个存储桶,依次单击创建数据集
  5. 上载在步骤 3 中创建的 CSV 文件,并保存数据集。
    对每个存储桶重复步骤 4 和 5。如果文档超过 10,000 个,则创建多个存储桶(每个存储桶最多包含 10,000 个文档),并为每个存储桶创建单独的数据集。