执行文档分类和键值提取

使用预训练的 OCI 文档理解模型,无需机器学习 (machine learning, ML) 或人工智能 (artificial intelligence, AI) 专业知识,就可以在应用程序中构建文档分类和键值提取。例如,您可以使用文档分类标识护照、驾驶执照、收据和发票。

:OCI 文档理解当前仅支持英语。请参见文档理解的限制
如果要使用预训练模型处理的文档少于 10,000 个或要使用定制模型处理的文档少于 2,000 个,可以在单个数据流中处理它们。如果超过这些限制,则创建单独的数据流来处理每个存储桶(即为每个存储桶使用单独的数据集),并使用序列来顺序处理数据流。请参见使用一系列数据流处理数据
先决条件:
  1. 在 Oracle Analytics 主页上,依次单击创建数据流
  2. 选择链接到要分析的文档的数据集,然后单击添加

  3. 数据流编辑器中,单击添加步骤 (+)
  4. 数据流步骤窗格,双击应用 AI 模型,然后选择要使用的模型。
    例如,您可以选择预训练文档分类来标识护照。
  5. 应用 AI 模型中,转到输入部分,然后配置输入列输入类型参数。
    • 如果您要通过存储桶引用源文档,则在输入列中选择 URL,在输入类型中选择存储桶

    • 如果您要逐个引用源文档,则在输入列中选择文件位置,在输入类型中选择文档
  6. 在数据流编辑器中,单击添加步骤 (+),然后选择保存数据
  7. 名称中,为输出数据集输入名称。
    例如,您可以将数据集命名为“护照标识分析结果”。
  8. 将数据保存到字段中,指定用于保存输出数据集的位置。
  9. 单击保存,输入数据流名称,然后单击确定
  10. 单击运行数据流
数据流完成分析时,打开在步骤 7 中指定的数据集。

要找到生成的数据集,请从 Oracle Analytics 主页导航到数据,然后导航到数据集
GUID-D4540502-D2A4-43CB-B023-E9F27C43579E-default.png 的说明如下
.png 的说明

有关生成的结果的更多详细信息,请参见为 OCI 文档理解模型生成的输出数据