以智慧型方式處理非結構化文件

處理非結構化文件是不需智慧型自動化的耗時任務。讓我們以發票 PDF 為例 - 您可能需要擷取關鍵標頭資訊,例如公司名稱、日期、發票號碼、地址等等。您可能也需要以各種料號、描述、數量、單價及總計來擷取每個明細行項目。擷取之後,此資訊必須張貼至記錄系統 (例如資料庫)、目標應用程式 (例如 Oracle E-Business Suite、Oracle Fusion Cloud Financials 或 Oracle Fusion Cloud SCM) 以命名一些項目。最後,您的一般使用者可以對新張貼的資訊 (無論是建立報表,甚至是自訂應用程式) 採取動作。

此案例使用 Oracle Integration Cloud Service 輕鬆完成,以協調各種 Oracle Cloud Infrastructure (OCI) 服務。使用 Oracle Integration Cloud Service ,無論記錄系統是在 OCI 或其他地方執行,您都可以輕鬆連線並整合。OCI 的 AI 服務 (例如 OCI 文件理解 ) 可以輕鬆與 Oracle Integration Cloud Service 結合,以實現各種使用案例。

您可以使用預建模型 (例如護照、駕駛執照和收據) 輕鬆將此方法套用至許多其他使用案例,以自動處理非結構化文件。其他文件類型也可以透過在 OCI 文件理解服務中訓練自訂模型來處理。

架構

此架構概述如何使用 Oracle Integration Cloud Service 協調 OCI 服務,將智慧型非結構化文件處理自動化。

下圖說明此參考架構。



oic-process-documents-arch.zip

此架構的工作流程如下:

  1. 整合已由 Oracle Integration Cloud Service 啟動,以使用預建轉接器從 Microsoft Outlook 或 Gmail 擷取新的電子郵件附件 (PDF、PNG、JPG 等)。
  2. 附件可以儲存在 Oracle Integration Cloud Service 的內嵌檔案伺服器中,也可以儲存在 OCI Object Storage 中以進行短期保留。
  3. 系統會呼叫 OCI 文件理解來提取和處理新上傳的檔案,並將擷取之索引鍵欄位的結構化 JSON 傳回至 Oracle Integration Cloud Service
  4. 如果 OCI Document Understanding 傳回的信賴度分數符合可接受的臨界值,則整合接著會使用超過 100 個預先建置的轉接器對各種系統或應用程式進行額外的呼叫,來轉換並驗證擷取的結果。否則,整合會在 Oracle Integration Cloud Service Process Automation 中啟動程序,以確保人為操作的異常狀況處理。在此程序中,開發人員或分析人員會收到電子郵件通知,以複查文件並在重新提交前加以更正,或手動識別必要的關鍵碼值組,以便進行整合。
  5. 擷取的資料會透過使用 OCI FastConnect 與連線代理程式 Oracle Fusion Cloud Financials (透過 Oracle 骨幹)、Oracle Autonomous Transaction Processing 資料庫 (透過專用端點) 或其他應用程式 (例如 Salesforce 、SAP 及 Workday),插入至內部部署 Oracle E-Business Suite 等記錄系統中。
  6. 在整合流程中將擷取和驗證的資料插入專用 Oracle Autonomous Transaction Processing 資料庫時,您現在可以運用額外的 OCI 功能,為一般使用者提供不同的資料互動方式。例如,您可以使用 Oracle APEX 輕鬆建立自訂入口網站 (Oracle Database 隨附的低程式碼平台)。此入口可讓業務使用者透過自訂 UI 查詢和更新擷取的資料。
  7. 或者,您可以將 Oracle Autonomous Transaction Processing 資料庫連線至 Oracle Analytics Cloud 執行處理,業務使用者可以在其中建置可找出最重要的已處理文件趨勢的自訂報表。

架構具有下列元件:

  • 地區

    Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。

  • 可用性網域

    可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。

  • 容錯域

    容錯網域是可用性網域內的一組硬體和基礎架構。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分散到多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器故障、系統維護和電源故障。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。

  • 內部部署網路

    此網路是您組織所使用的區域網路。它是拓樸的發言之一。

  • 動態路由閘道 (DRG)

    DRG 是一個虛擬路由器,提供相同區域中 VCN 之間、VCN 與區域外網路 (例如其他 Oracle Cloud Infrastructure 區域中的 VCN、內部部署網路或其他雲端提供者中的網路) 之間的專用網路流量路徑。

  • 服務閘道

    服務閘道可讓您從 VCN 存取其他服務,例如 Oracle Cloud Infrastructure Object Storage 。從 VCN 到 Oracle 服務的流量會透過 Oracle 網路結構傳送,不會周遊網際網路。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 提供一個在您的資料中心與 Oracle Cloud Infrastructure 之間建立專屬私人連線的簡便方式。與網際網路型連線相比,FastConnect 提供更高的頻寬選項和更可靠的網路體驗。

  • 路由表

    虛擬路由表包含將流量從子網路路由到 VCN 外部目的地 (通常是透過閘道) 的規則。

  • 安全清單

    您可以為每個子網路建立安全規則,以指定必須允許進出子網路的來源、目的地和流量類型。

  • 物件儲存

    物件儲存可讓您快速存取任何內容類型的大量結構化與非結構化資料,包括資料庫備份、分析資料,以及豐富的內容 (例如影像和影片)。您可以安全地儲存資料,然後直接從網際網路或雲端平台內擷取資料。您可以擴展儲存體,而不會發生任何效能或服務可靠性的降低問題。針對您需要快速、立即和經常存取的「熱」儲存,使用標準儲存。針對長時間保留且極少或極少存取的「冷」儲存,使用封存儲存。

  • Oracle Services Network

    Oracle Services Network (OSN) 是 Oracle Cloud Infrastructure 中專為 Oracle 服務保留的概念性網路。這些服務具有公用 IP 位址,您可以透過網際網路連線。Oracle Cloud 外部的主機可以使用 Oracle Cloud Infrastructure FastConnect 或 VPN Connect 來私下存取 OSN。VCN 中的主機可以透過服務閘道私密存取 OSN。

  • 整合

    Oracle Integration 是一項完全託管的服務,可讓您整合應用程式、自動化流程、深入瞭解業務流程,以及建立視覺化應用程式。

  • 文件分析

    Oracle Cloud Infrastructure 文件理解是一項 AI 服務,可大規模執行深度學習型文件分析。透過立即可用的預建模型,開發人員可以輕鬆地將智慧文件處理構建到應用程式中,而無需機器學習 (ML) 專長。

  • 分析

    Oracle Analytics Cloud 是可擴展且安全的公有雲服務,為業務分析師提供現代化的 AI 自助服務分析功能,以進行資料準備、視覺化、企業報告、增強分析,以及自然語言處理和生成。透過 Oracle Analytics Cloud ,您還可以獲得靈活的服務管理功能,包括快速設定、輕鬆調整規模和修補,以及自動化生命週期管理。

  • APEX 服務

    Oracle APEX 是低程式碼開發平台,可讓您建立可擴充、功能豐富、安全的企業 App,而且可以在安裝 Oracle Database 的任何位置部署。您不需要是各種技術的專家,就能提供精密的解決方案。Oracle APEX 包含內建功能,例如使用者介面主題、瀏覽控制項、表單處理程式,以及可加速應用程式開發程序的彈性報表。

  • 自治式異動處理

    Oracle Autonomous Transaction Processing 是一種自主驅動、自主防護、自主修復的資料庫服務,已針對交易處理工作負載進行最佳化。您不需要設定或管理任何硬體,也不需要安裝任何軟體。Oracle Cloud Infrastructure 處理建立資料庫,以及備份、修補、升級和調整資料庫。

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的存取控制層。IAM API 和使用者介面可讓您管理識別網域和識別網域內的資源。每個 OCI IAM 識別網域都代表獨立的識別與存取管理解決方案,或代表不同的使用者群體。

  • 記錄日誌
    日誌記錄是一項可高度擴展且完全託管的服務,可讓您從雲端中的資源存取下列類型的日誌:
    • 稽核記錄:與「稽核」服務所發出之事件相關的記錄。
    • 服務日誌:由個別服務 (例如 API 閘道、事件、函數、負載平衡、物件儲存以及 VCN 流量日誌) 發出的日誌。
    • 自訂日誌:包含自訂應用程式、其他雲端提供者或內部部署環境診斷資訊的日誌。
  • 稽核

    Oracle Cloud Infrastructure Audit 服務會自動將對所有支援的 Oracle Cloud Infrastructure 公用應用程式設計介面 (API) 端點進行的呼叫記錄為日誌事件。目前,所有服務都支援 Oracle Cloud Infrastructure Audit 記錄日誌。

建議

使用下列建議作為使用 Oracle Integration Cloud Service 導入智慧型文件處理的起點。您的需求可能與此處所述的架構不同。
  • 限制存取 Oracle Integration Cloud Service 執行處理

    設定允許清單 (前身為允許清單),以限制可存取您 Oracle Integration Cloud Service 執行處理的網路。只有來自特定 IP 位址、無類別網域間路由 (CIDR) 區塊和您指定之虛擬雲端網路的使用者可以存取該執行處理。

  • 連線

    當您將資源部署到 OCI 時,可以從小規模開始,然後透過單一連線到內部部署網路。此單一連線可以透過 FastConnect 或透過 IPSec VPN 進行連線。若要規劃備援,請考量企業內部部署網路與 OCI 之間的所有元件 (硬體裝置、設施、迴路和電源)。請同時考量多樣性,以確保設施不會在路徑間共用。

  • 在高可用性環境中使用連線代理程式

    您可以在 Oracle Integration Cloud Service 的高可用性環境中使用連線代理程式,方法是在不同的主機上安裝兩次連線代理程式。連線代理程式可以水平擴展,因此為代理程式群組提供執行多個代理程式的所有優點。這可提升效能並擴充容錯移轉的優點。

  • 使用專用端點

    您的整合可透過專用端點連線至虛擬雲端網路 (VCN) 中的專用資源。所有流量都會經過 OCI 內設定的專用通道。您可以為每個執行處理設定一個專用端點。這些功能可讓您的 Oracle Integration Cloud Service 執行處理存取專用資源,而不需要透過連線代理程式。

確認

  • 授權者Nolan Trouvé, Jerry Mbamo
  • 提供者Daryl Eicher