自动执行文档生命周期
AI 通过以下功能增强生命周期:
- 归档后智能
- 数字化
- 交易分析
各种可能的管道包括:
- 文档理解 (Document Understanding,DU) 加上文本 LLM,实现可扩展 OCR 和推理
- 用于可视/复杂布局的多模态 LLM
- 比较/合意模式以获得更高的保证
这种设计在各个行业都是通用的,重点是医疗保健和金融服务。
体系结构
此体系结构说明了文档处理的逻辑流程:从摄取和存储到提取和下游集成。它展示了多个 Oracle Cloud Infrastructure (OCI) 组件(包括 OCI Document Understanding 和 OCI Generative AI 服务(文本和视觉 LLM)如何在一个统一编排中协同运行。
下图说明了逻辑流。
逻辑流中显示的概念组件包括:
- 远程数据存储
- 表示原始文档源,可以是外部系统信息库、企业文件系统或共享存储(如网络驱动器、DMS 或云存储桶)。
- 可以定期提取文档,也可以在触发器时提取文档进行处理。
- 输入 UI
- 用于上载或提交文档的面向用户的简单入口点。
- 可以是使用 Oracle Digital Assistant 或类似工具构建的 Web 表单、内部门户或应用前端。
- 聊天机器人(可选)
- 提供对管道的会话访问。
- 允许用户通过自然语言上载或查询文档(例如,“向我显示 $50 K 以上的所有发票”)。
- 内部路由到与输入 UI 相同的摄取层。
- 集成
- 充当编排和路由层。
- 负责根据文档类型或业务逻辑触发正确的管道。例如, OCI Document Understanding 以及用于结构化文档的 LLM,用于图像密集型输入的视觉 LLM。
- 处理错误恢复、重试、元数据管理和对 ERP、CRM 或数据平台的下游 API 调用。
- 数据存储
- 存储原始数据和已处理数据。
- 通常使用 OCI Object Storage 实现二进制文件,使用 Oracle Autonomous AI Database 实现结构化 JSON 输出和审计日志。
- 在整个文档生命周期中实现可跟踪性、重新处理和分析。
- 光学字符识别 (OCR)
- 对键 - 值对、表和自由文本执行光学字符识别、布局检测和提取。
- 生成纯文本,用作基于文本的 LLM 推理的输入。
- OCI 文档理解具有确定性和基于模式,可确保可预测的提取质量。
- 文本 LLM(Cohere Command-A)
- 使用 OCI Document Understanding 输出并应用推理、规范化和格式设置。
- 处理超出 OCI Document Understanding 固定模式的汇总、分类和上下文提取。
- 可以清除嘈杂的 OCR 输出,统一字段命名,并根据上下文推断缺少的值。
- 多式联运法郎 (Llama 4 Maverick)
- 处理 OCI Document Understanding 和仅文本模型无法完全解释的视觉内容和复杂布局。
- 处理图表、手写、邮票、嵌入为图像的表以及多页连续性。
- 在组合流中,其输出与 OCI Document Understanding 和文本 LLM 结果一致,从而提高完整性和准确性。
- 嵌入和数据加载逻辑
- 将提取的文本和图像转换为向量嵌入,以进行语义搜索和文档检索。
- 支持下游 RAG 工作流,允许 LLM 基于实际、特定于文档的数据进行响应。
- 可以使用 OCI Functions 或定制 ETL 管道实现。
- 向量存储
- 存储文本和图像的嵌入。
- 支持快速检索上下文相似的内容,并支持生成式企业文档集问答。
- 常见实施包括 Autonomous AI Database 中的 Qdrant、AI Vector Search 或其他与 OCI 兼容的存储。
这是逻辑流图中描述的端到端流:
- 文档摄取
- 文档通过输入 UI 上载或从远程数据存储中检索。
- 集成层记录元数据,验证文件格式,并触发相应的处理管道。
- 聊天机器人提交的 API 路由与手动上载的路由相同。
- 存储和准备
- 文件将保留在 OCI Object Storage 中。
- 元数据和状态条目将写入 Oracle Autonomous AI Database 以进行审计和控制。
- 工作流触发器(使用 OCI Functions 或 Oracle Integration )启动 OCR/LLM 序列。
- 数据提取和扩充
- OCI Document Understanding 执行 OCR 和布局分析,返回结构化文本。
- 文本 LLM(例如 Command-A)解释此文本、对其进行清理并生成规范化输出(JSON 或 Markdown)。
- 当文档包含复杂的视觉元素时,文本和图像理解 AI(如 Llama 4 Maverick)会分析图像以丰富或验证提取结果。
- 可以通过编排逻辑(基于信任的对账)比较或合并这两个输出。
- 集成和知识加载
- 最终的结构化和情境化数据通过嵌入步骤,将文本或视觉洞察转换为向量。
- 嵌入和数据加载逻辑组件将这些向量存储到向量存储中,从而完成 RAG 集成阶段。
- 现在,分析仪表盘、搜索门户或 GenAI 聊天机器人等下游应用可以访问处理的数据,以进行语义检索和问题解答。
(可选)可以在步骤 3 和步骤 4 之间添加人工循环 (Human-in-the-loop,HITL) 步骤。
- 在此阶段,HITL 可以根据各种标准集成到流中,包括对答案的置信度、对数据类型的额外检查、格式等。这可能会提示用户根据需要批准或编辑结果。
- 在选择的任何路线中,可以添加 HITL,以提供额外的连续学习层,使解决方案能够随着使用而适应和增长并提高功效
- 触发 HITL:低置信度、模式违规、失败的对账、看不见的供应商/布局或监管机构关键字段。
- 考虑使用“毕业规则”:即在给定供应商/布局的连续 N 次清除传递后删除 HITL。
- 持续更正;提要提示精炼器和验证器;跟踪供应商/布局指纹。
下图显示了实施示例:
该体系结构包含以下组件:
- OCI 地区
OCI 区域是一个本地化的地理区域,其中包含一个或多个托管可用性域的数据中心。区域独立于其他区域,并且很远的距离可以将它们分开(跨越国家甚至大洲)。
- 区间
区间是 OCI 租户中的跨区域逻辑分区。使用区间来组织、控制访问并为 Oracle Cloud 资源设置使用限额。在给定的区间中,您可以定义策略来控制对资源的访问和设置权限。
- 可用性域
可用性域是区域中独立的数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共用基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不会影响该区域中的其他可用性域。
- 容错域
容错域是可用性域内的一组硬件和基础设施。每个可用性域都具有三个具有独立电源和硬件的容错域。在多个容错域之间分配资源时,您的应用可以容忍容错域内的物理服务器故障、系统维护和电源故障。
- OCI 虚拟云网络和子网
虚拟云网络 (VCN) 是您可以在 OCI 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您控制网络环境。一个 VCN 可以具有多个不重叠的无类域间路由 (classless inter-domain routing,CIDR) 块,在创建 VCN 后可以更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定为某个区域或某个可用性域。每个子网由一系列不与 VCN 中的其他子网重叠的连续地址组成。您可以在创建子网后更改子网的大小。子网可以是公共子网,也可以是专用子网。
- 动态路由网关 (DRG)
DRG 是一个虚拟路由器,用于为同一区域中的 VCN、VCN 与该区域之外的网络(例如另一个 OCI 区域中的 VCN、内部部署网络或其他云提供商中的网络)之间的专用网络流量提供路径。
- 服务网关
通过服务网关,您可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量将通过 Oracle 网络结构传输,不会通过互联网。
- Oracle 服务网络
Oracle 服务网络 (OSN) 是一个基于 OCI 的概念网络,专为 Oracle 服务保留。这些服务具有可通过互联网访问的公共 IP 地址。Oracle Cloud 外部的主机可以使用 Oracle Cloud Infrastructure FastConnect 或 VPN Connect 私下访问 OSN。VCN 中的主机可以通过服务网关以专用方式访问 OSN。
- Oracle Autonomous AI Database
Oracle Autonomous AI Database 提供易于使用、完全自治的数据库,可弹性扩展并提供快速查询性能。作为服务,它不需要数据库管理。您不需要配置或管理任何硬件,也不需安装任何软件。它可以自动处理预配、备份、打补丁和升级,以及扩展或收缩数据库,是一项弹性服务。使用内置 AI 功能,基于任意数据开发可扩展的 AI 应用。利用您选择的大语言模型 (LLM),在云或数据中心进行部署。
- Oracle AI Database 26ai
借助 Oracle AI Database 26ai 和 AI Vector Search,您可以按含义而不是关键字查询数据。向量表示(嵌入)捕获文本、图像、音频等的语义,以便您高效地找到类似的内容。内置的 SQL 距离函数允许使用向量的相似性搜索。您可以将语义相似性和其他搜索标准组合到大语言模型 (RAG) 中,以获得更准确和相关的答案。
- OCI 文档理解
Oracle Cloud Infrastructure 文档理解是一项用于大规模执行深度学习文档分析的 AI 服务。借助提供的预构建模型,开发人员无需具备机器学习专业知识即可轻松将智能文档处理构建到应用中。
- Oracle Digital Assistant
Oracle Digital Assistant 是一个平台,可用于为用户创建和部署数字助手。借助 Oracle Digital Assistant ,您可以通过文本、聊天和语音界面为业务应用创建 AI 驱动的界面(或聊天机器人)。每个数字助手都具有一个或多个专业技能的集合,以帮助用户完成自然语言对话中的各种任务。例如,个人数字助手可能具有专注于特定类型任务(例如跟踪库存、提交工时记录卡和创建费用报告)的技能。
- Oracle AI Data Platform
Oracle AI Data Platform 是一个统一的平台,可简化整个数据资产的数据编目、准备和分析。它将数据、AI、分析和治理整合到一个统一的用户体验中,使您能够构建安全、可扩展的 AI 应用。Oracle AI Data Platform 统一了 Autonomous AI Lakehouse 、Oracle Analytics Cloud 、 OCI Object Storage 、 OCI Generative AI 和 Fusion Data Intelligence 。
在此平台中,Oracle AI Data Platform Workbench 提供了一个专用开发环境,可用于设计、编排和部署数据管道和模型,设置 RBAC 策略,以及使用 Spark 等开源技术来准备、分析和扩充数据。
- OCI 生成式 AI
Oracle Cloud Infrastructure Generative AI 是一个完全托管的 OCI 服务,提供一组先进的、可定制的大语言模型 (LLM),涵盖文本生成、汇总、语义搜索等各种用例。使用操场来试用现成可用的预训练模型,或者基于您自己的数据在专用 AI 集群上创建和托管您自己的微调定制模型。
- Oracle Integration
Oracle Integration 是一个完全托管的预配置环境,允许您集成云和内部部署应用、自动执行业务流程以及开发可视化应用。它使用符合 SFTP 的文件服务器来存储和检索文件,并允许您使用数百个适配器和配方组合与 Oracle 和第三方应用程序连接,以与企业对企业贸易合作伙伴交换文档。
- OCI 对象存储
OCI Object Storage 可访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全地直接从应用或云平台内存储数据。您可以扩展存储,而不会出现性能或服务可靠性下降的情况。
将标准存储用于您需要快速、立即和频繁访问的“热”存储。将归档存储用于长期保留且很少或很少访问的“冷”存储。
推荐
- VCN
创建 VCN 时,根据您计划附加到 VCN 中的子网的资源数,确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。
选择与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure 、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。
创建 VCN 后,您可以更改、添加和删除其 CIDR 块。
设计子网时,请考虑流量和安全要求。将特定层或角色中的所有资源附加到同一子网,该子网可以用作安全边界。
- 网络安全组 (NSG)
您可以使用 NSG 定义一组适用于特定 VNIC 的入站和出站规则。我们建议使用 NSG 而非安全列表,因为 NSG 使您能够将 VCN 的子网体系结构与应用的安全要求分开。
- Cloud Guard
克隆和定制 Oracle 提供的默认配方,以创建定制检测器和响应器配方。通过这些配方,您可以指定生成警告的安全违规类型以及允许对它们执行哪些操作。例如,您可能希望检测可见性设置为公共的 OCI Object Storage 存储桶。
在租户级别应用 Oracle Cloud Guard ,以涵盖最广泛的范围,并减轻维护多个配置的管理负担。
还可以使用“托管列表”功能将某些配置应用于检测器。
- 安全区域
对于需要最大安全性的资源,Oracle 建议您使用安全区域。安全区域是与 Oracle 定义的基于优秀实践的安全策略配方关联的区间。例如,不能从公共 Internet 访问安全区域中的资源,并且必须使用客户管理的密钥对其进行加密。在安全区域中创建和更新资源时,OCI 将根据配方中的策略验证操作,并防止违反任何策略的操作。
注意事项
考虑文档生命周期中不同阶段的体系结构的以下实施:
存档后智能系统:
- 将历史 PDF/图像批量摄取到 OCI Object Storage 。
- OCI Document Understanding 路由到文本 LLM(默认值),用于汇总、分类和实体提取。
- 当模型置信度低于定义的阈值(例如,低提取/分类置信度)时,将输出路由到 HITL 复查。
- 图表或视觉提示的可选视觉 LLM。
- 存储路由到分析和检索的结构化结果(自治 AI 数据库 /参数组)。
数字化加速:
- 传送至 OCI 文档理解 OCR 和布局的扫描。
- 文本 LLM 规范化字段、应用分类和标记元数据。
- 可选与视觉 LLM 进行表或手写比较。
- 当模型置信度低于定义的阈值(例如,低提取/分类置信度)时,将输出路由到 HITL 复查。
- 持久性和索引;支持搜索和下游自动化。
事务处理分析(实时):
- 新的提交通过 API 或门户提交到 OCI 对象存储。
- OCI 文档理解在延迟 SLO 中路由到文本 LLM;包括欺诈/异常和完整性检查。
- 在 ERP/OTM 中使用 Oracle Integration 进行交叉检查;执行关口审批。
- HITL 只在例外情况下;其余的直接通过。
请考虑以下不同的基础,了解在解决这些问题时可以采取的方法,以及要采用的其他管道策略:
- 默认值:OCI Document Understanding ,用于将 LLM(例如 Command-A)文本用于清洗和提取。
- Vision route: Llama 4 Maverick 可视化或低 OCI 文档理解置信度。
- 比较/共识(可选):使用 LLM 和 OCI Vision 运行 OCI 文档理解;调节冲突(优先级规则和业务验证器)。
- 多页/多图像策略:
- 每个小牛多达 10 页/图像,以保持连续性。
- 使用带有滚动摘要提示的滑动窗口(1 – 10,6 – 15,…),以减少标记并保持上下文。
- 语言处理:基于语言流行率和 OCI Document Understanding 支持的路由。路由到 OCI Vision 路由或仅文本回退的小型少数语言。
了解更多
详细了解如何使用 GenAI 和 OCI 自动执行文档流程,以及如何使用 Oracle 开始您的云之旅。
查看以下其他资源:
- Oracle 通过 GenAI 示例应用程序提供了多个文档处理。转至 GitHub 。
- 开发人员指导—在 Oracle 开发人员 YouTube 渠道上发现复杂文档的多模式模型
- Oracle Cloud Infrastructure 文档
- Oracle Cloud Infrastructure 的体系结构完善的框架
- Oracle Cloud 成本估算器
- 云采用框架

