使用 OpenSearch、OCI Vision、文字辨識搜尋儲存在物件儲存中的文件和映像檔
對於大數據解決方案,使用者偏好將文件儲存在低成本儲存系統中,例如 Oracle Cloud Infrastructure Object Storage 。當有大量文件具有「千兆位元組」資料時,使用者需要易於擴充的選項來搜尋和找出相關資訊。這些使用者也可以要求以特定步驟編製自訂文件的索引,以獲得更好的搜尋結果。
此參考架構說明如何使用低程式碼工具,開發使用 Oracle Visual Builder 設計的搜尋引擎來搜尋 Oracle Cloud Infrastructure Object Storage 中儲存的文件和映像檔。您可以根據 OpenSearch 安全性,或與文件相關聯的標籤,在檔案層級上新增安全性。
此參考架構提供以下功能。
- 支援大多數的檔案類型:
- Word、Excel、Powerpoint、pdf、xml 等等
- 使用「文字辨識」的文字影像。您可以搜尋影像中的文字。
- 不含文字的影像標籤。您可以在影像中尋找物件。
- 自訂文件
- 支援多語言 (希伯來文、阿拉伯文等等)
- 提供簡易的使用者介面
- 使用低程式碼工具可輕鬆實行任何變更。例如,您可以在剖析程序中輕鬆新增其他檔案類型或其他步驟。
- 以「高可用性」模式執行,並且可擴展。
架構
下圖說明此參照架構的邏輯流程。
oci_opensearch_vision_flow-oracle.zip
- 文件已上傳至物件儲存
- 事件在串流處理 (Kafka) 中引發並排入佇列
- 事件是由 Oracle Integration Cloud Service (OIC) 根據檔案類型處理
- 結果會上傳至 OpenSearch
下圖說明此參照架構。
oci_opensearch_vision_arch-oracle.zip
一般使用者可以在視覺化產生器設計的搜尋頁面中搜尋這些文件。
內部處理使用低程式碼工具 OIC 設計。
應用系統會偵測物件儲存 (檔案建立、更新、刪除) 中的變更,並將變更傳送至 OIC 以進行處理。
OIC 將所有片段連接在一起:
- 使用串流處理佇列 (Kafka) 從物件儲存接收事件
- 偵測文件型態
- 依據文件類型的處理程序:
- 將映像檔傳送至 OCI AI Vision 以進行標籤或文字識別
- 將文件傳送至 Java 函數以剖析文件 (Word、PDF、...)
- 對於自訂文件 (例如 ID 卡),它會偵測卡片的名稱、出生日期和 ID。
- 文件會轉換,結果會儲存在 Opensearch 中進行索引。
一般使用者搜尋介面是使用 Visual Builder 所建立。一般使用者搜尋時,結果會來自 OpenSearch,而文件連結會指向物件儲存。
檢視文件時,會從物件儲存使用以即時方式建立的短期已驗證請求來建立文件。
您可以透過其他步驟擴充此處理管道,使用函數 (或運算執行處理上的 REST 服務) 呼叫任何自訂程式碼,以增強將儲存在 OpenSearch 執行處理索引中的描述資料。
架構包含下列元件:
- 使用 OpenSearch 的 OCI 搜尋服務
具備 OpenSearch 的 OCI Search Service 是作為 Oracle 管理服務的洞察分析引擎。Oracle 會在不停機的情況下自動打補丁、更新、升級、備份及調整服務大小。客戶可以快速儲存、搜尋及分析大量資料,近乎即時地查看結果。
- Oracle 整合
Oracle Integration 是企業連線與自動化平台,可快速將應用程式、業務流程、API 及資料現代化。開發人員和雲端架構師可透過視覺化開發體驗、預先建置的整合以及內嵌的最佳實務,以六倍的速度連結 SaaS 和內部部署應用程式。Oracle Integration 讓您以原生方式存取 Oracle Cloud ERP、HCM 和 CX 中的事件。連結應用程式特定的分析孤島,以簡化從請購到收款、招募到付款、從潛在客戶到發票以及其他關鍵流程。最後,讓您的 IT 和企業領導者端對端能見度。
- 物件儲存
物件儲存可讓您快速存取任何內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料,以及影像和影片等豐富內容。您可以安全可靠地儲存並直接從網際網路或雲端平台內擷取資料。您可以無縫擴充儲存,而不會造成效能或服務可靠性下降。針對快速、立即和經常存取的「熱」儲存體,使用標準儲存體。針對您保留長期且很少存取的「冷」儲存,使用封存儲存空間。
- OCI 視覺
OCI Vision 是一種 AI 服務,可大規模執行以深度學習為基礎的映像檔分析。有了立即可用的預建模型,開發人員無需機器學習 (ML) 專門技術,即可輕鬆地將影像辨識和文字辨識建置到應用程式中。針對產業特定使用案例,開發人員可以自動使用自己的資料訓練自訂 Vision 模型。這些模型可用來偵測製造中的視覺異常情況、從文件擷取文字以自動化業務工作流程,以及在影像中標記項目以盤點產品或出貨。除了獲得預先訓練的模型存取權之外,開發人員還可以建立自訂模型,而無需資料科學專業知識或管理自訂模型基礎架構。
- 串流處理
Oracle Cloud Infrastructure Streaming 服務提供完全管理、可擴展且持久的解決方案,以便即時擷取及使用大量資料串流。對於在發布 / 訂閱訊息傳遞模型中以持續且循序方式產生及處理資料的任何使用案例,都可以使用串流處理。
- 事件
Oracle Cloud Infrastructure 服務會發出事件,這是描述資源變更的結構化訊息。會發出事件以供建立、讀取、更新或刪除 (CRUD) 作業、資源生命週期狀態變更以及影響雲端資源的系統事件使用。
- 函數
Oracle Functions 是一個完全託管的多租用戶、高度可擴充、隨選的 Functions-as-a-Service (FaaS) 平台。它是由 Fn Project 開源引擎提供技術支援。函數可讓您部署程式碼,然後直接呼叫或觸發程式碼以回應事件。Oracle Functions 使用 Oracle Cloud Infrastructure Registry 中代管的 Docker 容器。
- 租用戶
租用戶是指註冊 Oracle Cloud Infrastructure 時 Oracle 在 Oracle Cloud 內設定的安全隔離分割區。您可以在租用戶的 Oracle Cloud 中建立、組織及管理您的資源。租用戶與公司或組織同義。通常,公司會有一個租戶並反映其在該租戶內的組織結構。單一租用戶通常與單一訂閱關聯,而單一訂閱通常只有一個租用戶。
- 區域
Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域獨立於其他區域,因此廣大的距離可以劃分區域 (跨國家甚至大陸)。
- 區間
區間是 Oracle Cloud Infrastructure 租用戶內的跨區域邏輯分割區。使用區間在 Oracle Cloud 中組織您的資源、控制對資源的存取,以及設定使用量配額。若要控制對指定隔離專區中資源的存取,您必須定義指定可存取資源的人員及其可執行動作的原則。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統資料中心網路相同,VCN 可讓您完整控制網路環境。一個 VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 後進行變更。您可以將 VCN 分割成子網路,範圍可至區域或可用性網域。每個子網路均包含一系列不與 VCN 中其他子網路重疊的連續位址。您可以在建立子網路後變更其大小。子網路可以是公用或專用子網路。
- 安全清單
對於每個子網路,您可以建立安全規則,指定必須允許進出子網路的來源、目的地和流量類型。
建議
- 維護和高可用性
此設計使用幾乎只有 PaaS 個由雲端維護的服務。無需使用此解決方案來安裝、修補、更新或升級軟體。適用於:物件儲存、事件、串流處理、OCI Vision、Oracle Integration、Visual Builder 及 Functions。
唯一需要注意的元件是安裝在運算執行處理中的 Oracle Integration Cloud 代理程式,用來存取位於專用網路中的 OpenSearch 叢集。請依照 OIC 文件中的準則,讓 OIC 代理程式容易維護且高度可用。
- 可擴充性與大小
此參考架構使用 PaaS 服務,且可針對大部分服務立即擴充。請注意,OpenSearch 叢集不會自動縱向擴展或縮減 (僅手動)。因此,根據您的使用案例,需要對解決方案進行適當規模調整。
注意事項
建置此參照架構時,請考量以下各點。
- 效能
OpenSearch 的 OCI Search Service 具有無與倫比的組態層級。您並未被鎖定在特定資源配置或 SKU 中;您可以改用彈性資源配置,以便根據確切的需求設定精確的運算核心數目和記憶體和儲存量。
使用 OpenSearch 的 OCI 搜尋服務管理設定叢集所涉及的工作,包括佈建基礎架構。叢集執行之後,搭配 OpenSearch 的 OCI Search Service 會處理一般管理作業,例如執行備份、監督執行處理以及修正軟體。OCI Search Service 與 OpenSearch 整合 OCI 度量,以產生提供有關叢集狀態資訊的度量。使用 OpenSearch 的 OCI Search Service 還能夠修改叢集組態和資料大小總計,而不會造成服務中斷。
- 安全
文件儲存在私有 Object Storage 中。使用者按一下文件時,會建立短期連結。
此實作會為所有使用者傳回相同的結果,並在「瀏覽更多」區段中連結的 LiveLabs 工作室中詳細說明。未在文件階層實施安全性。您可以根據 OpenSearch 安全性和 (或) 與文件和使用者關聯的標籤來實行它。
- 成本
此參考架構使用低成本產品的 Object Storage 和 OpenSearch。它也使用標準版的 OIC。OIC 在建立索引時使用非常有效率,只使用檔案參照,而不會使用檔案本身。

