智能处理非结构化文档

无需智能自动化,处理非结构化文档是一项耗时的任务。以发票 PDF 为例 - 您可能需要提取关键题头信息,例如公司名称、日期、发票编号、地址等。您可能还需要提取具有各种项目编号、说明、数量、单价和总计的每个行项目。提取后,需要将此信息发布到记录系统(例如数据库)、目标应用程序(例如 Oracle E-Business Suite、Oracle Fusion Cloud Financials 或 Oracle Fusion Cloud SCM)中,仅举几例。最后,最终用户可以对新发布的信息(无论是构建报告还是自定义应用程序)执行操作。

使用 Oracle Integration Cloud Service 轻松编排各种 Oracle Cloud Infrastructure (OCI) 服务。借助 Oracle Integration Cloud Service ,无论记录系统是在 OCI 中还是在其他地方运行,您都可以轻松连接到记录系统并进行集成。OCI 的 AI 服务(例如 OCI Document Understanding )可以轻松与 Oracle Integration Cloud Service 结合使用,以实现各种用例。

您可以轻松地将此方法应用于许多其他用例,这些用例使用预构建模型(如护照、驾驶执照和收据)自动处理非结构化文档。还可以通过在 OCI 文档理解服务中训练自定义模型来处理其他文档类型。

体系结构

此架构概述了如何使用 Oracle Integration Cloud Service 编排 OCI 服务,以自动执行智能的非结构化文档处理。

下图说明了此引用体系结构。



oic-process-documents-arch.zip

此体系结构的工作流类似于:

  1. 通过 Oracle Integration Cloud Service 启动集成,您可以使用预构建适配器从 Microsoft Outlook 或 Gmail 中提取新的电子邮件附件(PDF、PNG、JPG 等)。
  2. 附件可以存储在 Oracle Integration Cloud Service 的嵌入式文件服务器中,也可以存储在 OCI Object Storage 中以实现短期到长期保留。
  3. 调用 OCI 文档理解以提取和处理新上载的文件,将提取的关键字字段的结构化 JSON 返回到 Oracle Integration Cloud Service
  4. 如果 OCI Document Understanding 返回的置信度评分达到可接受的阈值,则集成会通过使用 100 多个预构建适配器中的任意一个对各种系统或应用进行额外调用来转换和验证提取的结果。否则,集成将启动 Oracle Integration Cloud Service 流程自动化中的流程,以确保人工在环异常处理。在此过程中,开发人员或分析师会收到电子邮件通知,以复核文档并在重新提交之前对其进行更正,或手动确定所需的密钥值对,以便集成可以继续。
  5. The extracted data is inserted into a system of record such as on-premises Oracle E-Business Suite through the use of OCI FastConnect and a connectivity agent, Oracle Fusion Cloud Financials over the Oracle backbone, an Oracle Autonomous Transaction Processing Database via a private endpoint, or other applications like Salesforce, SAP, and Workday.
  6. 在集成流中,将提取和验证的数据插入专用 Oracle Autonomous Transaction Processing 数据库后,您现在可以利用其他 OCI 功能为最终用户提供不同的数据交互方式。例如,您可以使用 Oracle APEXOracle Database 附带的低代码平台)轻松构建定制门户。此门户允许业务用户通过自定义 UI 查询和更新提取的数据。
  7. (可选)您可以将 Oracle Autonomous Transaction Processing 数据库连接到 Oracle Analytics Cloud 实例,业务用户可以在该实例中构建定制报告来发现最重要的已处理文档趋势。

该体系结构具有以下组件:

  • 区域

    Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • 容错域

    容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个容错域,它们具有独立的电源和硬件。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 内部部署网络

    此网络是您的组织使用的本地网络。它是拓扑的发言人之一。

  • 动态路由网关 (DRG)

    DRG 是虚拟路由器,用于为同一区域中的 VCN 之间、VCN 与区域外的网络(例如另一个 Oracle Cloud Infrastructure 区域中的 VCN、内部部署网络或另一个云提供商中的网络)之间的专用网络流量提供路径。

  • 服务网关

    通过服务网关,您可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量通过 Oracle 网络结构传输,不会通过互联网传输。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 提供了一种在您的数据中心与 Oracle Cloud Infrastructure 之间创建专用私有连接的简便方式。与基于 Internet 的连接相比,FastConnect 提供了更高的带宽选项和更可靠的网络体验。

  • 路由表

    虚拟路由表包含用于将流量从子网路由到 VCN 之外目的地的规则,通常是通过网关。

  • 安全列表

    对于每个子网,可以创建安全规则来指定必须允许进出子网的通信的源、目标和类型。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全地存储数据,然后直接从互联网或云平台检索数据。您可以在不降低性能或服务可靠性的情况下扩展存储。将标准存储用于需要快速、立即和频繁访问的“热”存储。将归档存储用于长期保留、很少访问或很少访问的“冷”存储。

  • Oracle 服务网络

    Oracle 服务网络 (OSN) 是 Oracle Cloud Infrastructure 中为 Oracle 服务保留的一个概念性网络。这些服务具有可通过互联网访问的公共 IP 地址。Oracle Cloud 外部的主机可以使用 Oracle Cloud Infrastructure FastConnect 或 VPN Connect 私下访问 OSN。VCN 中的主机可以通过服务网关对 OSN 进行专用访问。

  • 集成

    Oracle Integration 是一项全托管式服务,可用于集成应用、自动执行流程、深入了解业务流程以及创建可视化应用。

  • 文档分析

    Oracle Cloud Infrastructure Document Understanding 是一项可大规模执行基于深度学习的文档分析的 AI 服务。利用现成的预构建模型,开发人员无需具备机器学习 (ML) 专业知识即可轻松将智能文档处理构建到应用中。

  • 分析

    Oracle Analytics Cloud 是一项可扩展且安全的公有云服务,可为业务分析师提供基于 AI 的现代自助分析功能,以支持数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。借助 Oracle Analytics Cloud ,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。

  • APEX 服务

    Oracle APEX 是一个低代码开发平台,您可以在该平台上构建可扩展的、功能丰富的、安全的企业应用程序,这些应用程序可以在安装 Oracle Database 的任何位置部署。您无需成为众多技术的专家即可提供复杂的解决方案。Oracle APEX 包含用户界面主题、导航控制、表单处理程序和灵活报告等内置功能,可加快应用程序开发过程。

  • 自治事务处理

    Oracle Autonomous Transaction Processing 是一个自我驱动、自我保护和自我修复的数据库服务,针对事务处理工作负载进行了优化。您不需要配置或管理任何硬件,或者安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及数据库备份、打补丁、升级和调优。

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的访问控制层。通过 IAM API 和用户界面,您可以管理身份域和身份域中的资源。每个 OCI IAM 身份域代表一个独立的身份和访问管理解决方案或不同的用户群体。

  • 日志记录
    日志记录是一项高度可扩展且完全托管的服务,它允许您从云端资源访问以下类型的日志:
    • 审计日志:与审计服务发出的事件相关的日志。
    • 服务日志:由各个服务发出的日志,如 API 网关、事件、函数、负载平衡、对象存储和 VCN 流日志。
    • 定制日志:包含来自定制应用程序、其他云提供商或内部部署环境的诊断信息的日志。
  • 审计

    Oracle Cloud Infrastructure Audit 服务将对所有受支持的 Oracle Cloud Infrastructure 公共应用编程接口 (API) 端点的调用自动记录为日志事件。目前,所有服务都支持 Oracle Cloud Infrastructure Audit 日志记录。

推荐

使用以下建议作为开始使用 Oracle Integration Cloud Service 实施智能文档处理。您的要求可能与此处描述的体系结构不同。
  • 限制对 Oracle Integration Cloud Service 实例的访问

    通过配置允许列表(以前称为白名单),限制有权访问 Oracle Integration Cloud Service 实例的网络。只有来自特定 IP 地址、无类域间路由 (CIDR) 块和您指定的虚拟云网络的用户才能访问实例。

  • 连接

    将资源部署到 OCI 时,您可以从小规模起步,与本地部署网络建立单一连接。此单个连接可以通过 FastConnect 或 IPSec VPN 连接。要规划冗余,请考虑内部部署网络与 OCI 之间的所有组件(硬件设备、设备、电路和电源)。还要考虑多样性,以确保在路径之间不共享设施。

  • 在高可用性环境中使用连接代理

    通过在不同主机上安装两次连接代理,可以将连接代理用于高可用性环境中的 Oracle Integration Cloud Service 。连接代理可以水平扩展,从而为代理组运行多个代理提供所有优势。这样可以提高性能并扩展故障转移优势。

  • 使用专用端点

    通过专用端点,您的集成可以连接到虚拟云网络 (VCN) 中的专用资源。所有流量都通过在 OCI 中设置的专用通道。您可以为每个实例配置一个专用端点。这些功能允许 Oracle Integration Cloud Service 实例访问专用资源,而无需通过连接代理。

浏览更多

了解有关使用 Oracle Integration Cloud Service 进行智能文档处理的更多信息。

查看以下附加资源:

Oracle Integration Cloud Service

OCI 文档理解和 OCI AI

Oracle Cloud Infrastructure

确认

  • 授权者Nolan Trouvé, Jerry Mbamo
  • 贡献者Daryl Eicher