資料平台 - 具備複雜整合的資料倉儲

企業應用程式資料通常會分散在整個企業的多個系統中,而且無法輕鬆整合及分析以產生可行的洞察分析。

此參照架構提供一個架構,可使用來自其他來源的原始資料強化企業應用程式資料,以及使用機器學習模型將智慧和預測的洞察分析引進商業流程。

此參照架構將技術解決方案定位於整體商業相關資訊環境內:



由於部門會將多個來源的資料合併至資料市集以獲得目標洞察分析,因此企業資料倉儲必須變更並調適,才能運用可用的資料市集和其他結構化和非結構化來源。

資料倉儲會區隔分析工作負載與交易工作負載,並可讓組織整合來自數個來源的資料。這有助於以業務導向格式查詢和分析歷史資料,以存留交易系統的變更。運用倉儲資料進行機器學習和預測分析,是將智慧引進商業流程的關鍵操作。智慧型商業流程可協助主動管理重要商業事件,例如向正確的通道向正確的客戶建議正確的產品,或是偵測可能的詐騙事件。

架構

此架構會收集並結合用於分析和機器學習的應用程式資料,以提供可行的洞察分析。



oci-polyglot-arch architecture-oracle.zip

下圖說明使用最佳做法將上述架構與 Oracle Cloud Infrastructure (OCI) 上提供的服務對應。



oci-polyglot-physical-arch-oracle.zip

架構著重於下列邏輯部門:

  • 擷取、轉換

    將資料納入並縮小架構中每個資料層使用的資料。

  • 保留、曲線、建立

    協助存取與瀏覽資料以顯示目前與歷史業務檢視。它同時包含原始資料以及精細和聚總的策劃資料。對於關聯式技術,資料可能是簡單關聯式、縱向、維度或 OLAP 表單中的邏輯或實際結構化。對於非關聯式資料,此層包含一或多個資料集區 (分析處理的輸出或針對特定分析作業最佳化的資料)。

  • 分析、學習、預測

    將消費者的資料邏輯業務視圖摘要。此抽象概念有助於靈活運用開發方法、移轉至目標架構,以及從多個聯合來源提供單一報告層。

架構包含下列元件:

  • 批次擷取

    批次擷取對於無法即時擷取的資料很有用,或對於即時擷取而言太多成本。將資料轉換成可靠且信任的資訊 (可加以策劃並保存以供一般使用) 也是相當重要的。您可以一起或獨立使用下列服務,以達成高度彈性且有效的資料整合與轉換工作流程。

    • Oracle Cloud Infrastructure Data Integration 是一種完全受管理的無伺服器雲端原生服務,可將各種資料來源的資料擷取、載入、轉換、清除及回應至目標 Oracle Cloud Infrastructure 服務,例如 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage。ETL (擷取轉換載入) 利用 Spark 上完全管理的擴展處理,ELT (擷取載入轉換) 利用 Autonomous Data Warehouse 的完整 SQL 向下推送功能,將資料移動減至最低,並改善新擷取資料值的時間。使用者可使用直覺式、無程式碼的使用者介面來設計資料整合處理,以最佳化整合流程來產生最有效率的引擎與協調流程,並自動配置與調整執行環境。Oracle Cloud Infrastructure Data Integration 提供互動式的探索和資料準備,並可藉由定義處理綱要變更的規則來協助資料工程師避免綱要偏差。

    • Oracle Data Transforms 是以 Oracle Data Integrator (ODI) 整合工具為基礎,可以從 Oracle Autonomous Database 資料庫動作 (Data Studio) 部署這些工具。它提供建置、部署及管理複雜資料倉儲的完全統一解決方案,或是作為 SOA 或商業智慧環境中以資料為中心之架構的一部分。此外,它合併了資料整合、資料移動、資料同步化、資料品質和資料管理的所有元素,以確保複雜系統間資訊的即時、準確和一致。

      Oracle Data Integrator 提供高量與高效能批次載入、事件導向、整合式饋送整合處理作業以及啟用 SOA 之資料服務的完整資料整合。宣告式設計方法可確保快速、更簡單的開發與維護,並提供擷取載入轉換 (ELT) 的唯一方法,協助保證資料轉換與驗證處理作業可能發生的最高層次效能。Oracle 資料轉換使用 Web 介面來簡化 ELT 的組態和執行,並協助使用者使用宣告式設計方法建立及排定資料和工作流程。

    根據使用案例的不同,這些元件可以獨立使用或同時使用,以達到高度彈性和效能的資料整合與轉換。

  • 即時擷取

    Oracle Cloud Infrastructure GoldenGate是一項完全受管理的服務,可讓資料擷取來自位於企業內部部署或任何雲端的來源,利用GoldenGate CDC技術快速擷取非信任且有效率的資料並傳遞至Oracle Autonomous Data Warehouse ,讓用戶儘快取得相關資訊。

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse 是一項針對資料倉儲工作負載最佳化的自我驅動、自我保護、自我修復資料庫服務。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。

    位於物件儲存中的大量或冷儲存資料可以外部表格和混合分割表格形式與倉儲資料結合。

    Autonomous Data Warehouse 可以使用先前儲存在「資料目錄」中的收集描述資料來建立外部表格,並且可以自動將「資料目錄」中的描述資料更新與外部表格定義同步,以維持一致性、簡化管理以及減少效益。

    此外,Oracle Autonomous Database 的資料湖加速器元件可順暢地使用物件儲存資料、調整處理以提供快速查詢、視需要自動調整資料庫運算執行處理,以及藉由隔離資料庫運算執行處理的物件儲存查詢來降低對資料庫工作負載的影響。

  • 物件儲存

    物件儲存可讓您快速存取任何內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料以及豐富的內容 (例如影像和視訊)。您可以直接從網際網路或從雲端平台內,安全地儲存及擷取資料。您可以無縫接軌地擴展儲存體,而不會遇到任何效能或服務可靠性降低。使用標準儲存體作為快速、立即及經常存取所需的「熱」儲存體。將封存儲存用於您保留的「冷」儲存空間長期、少數或少數存取。

  • 分析

    Oracle Analytics Cloud 是可擴展且安全的公有雲服務,可為您、您的工作群組和您的企業提供完整的功能來探索和執行協作分析。它支援公民資料科學家、進階商業分析師訓練,以及機器學習 (ML) 模型。機器學習模型可以在分析服務上執行,或直接在 Oracle Autonomous Data Warehouse 上執行,作為運用倉儲處理能力、擴展性及彈性的大型批次預測的 OML 內嵌模型。

    透過 Oracle Analytics Cloud,您也可以取得彈性的服務管理功能,包括快速設定、輕鬆擴展與修正,以及自動化的生命週期管理。

  • 機器學習

    Oracle Machine Learning提供強大的機器學習功能,可緊密整合在Oracle Autonomous Database中,並支援Python和AutoML。它支援使用開放原始碼和可擴充的資料庫內演算法來減少資料準備和移動的模型。AutoML 可協助資料科學人員使用自動演算法選擇、調適型資料抽樣、自動選取功能以及自動模型調整,加速公司機器學習初步計畫的價值。

    Oracle Autonomous Data Warehouse 中提供 Oracle Machine Learning 服務時,您無法只管理模型,但您也可以將這些模型部署為 REST 端點,以便在公司內示範即時預測,讓業務能夠在發生時反應相關事件,而不是事實之後。

  • 數據科學

    資料科學提供基礎架構、開源技術、程式庫、套裝程式和資料科學工具,供資料科學團隊在 Oracle Cloud Infrastructure 中建置、訓練及管理機器學習 (ML) 模型。協作和專案導向工作區提供端對端的聚合式使用者體驗,並支援預測模型的生命週期。

    「資料科學模型部署」功能可讓資料科學家將訓練的模型部署為完全受管理的 HTTP 端點,這些端點可以即時提供預測、將智慧型智慧插入程序和應用程式,以及讓商業在發生時能夠反應相關事件。

  • 資料目錄

    Oracle Cloud Infrastructure Data Catalog 提供技術資產 (例如描述資料和描述資料屬性) 的可見性,並可讓您維護對應至該技術描述資料的商業詞彙。Oracle Cloud Infrastructure Data Catalog 也提供 Autonomous Data Warehouse 的描述資料,以便於在資料倉儲中建立外部表格。

建議

使用下列建議作為收集及結合應用程式資料以進行分析和機器學習的起點。

您的需求可能會與此處描述的架構不同。

  • Oracle Autonomous Data Warehouse

    此架構在共用基礎架構上使用 Oracle Autonomous Data Warehouse。啟用自動調整功能,讓資料庫工作負載達到處理能力的三倍。

    如果想要在公有雲上執行的專用資料庫雲環境內使用自助服務資料庫功能,請考慮在專用基礎架構上使用 Oracle Autonomous Data Warehouse

    請考慮在經常未使用且不需要相同效能的資料使用 Autonomous Data Warehouse 的「混合分割表格」功能。您可以使用此功能將資料分割區移至物件儲存,然後將它們與存在 Autonomous Data Warehouse 中的分割區結合以無縫傳遞。

    考慮使用「外部表格」功能即時使用儲存在物件儲存中的資料,而不需要將它複製到 Autonomous Data Warehouse。這可讓資料倉儲不論格式為何 (parquet、avro、orc、json、csv 等等) 都使用策劃資料。

    使用物件儲存資料時,請考慮使用資料湖加速器,以便為耗用大量使用者,以及結合資料倉儲和資料湖之間的資料,提供更完善且更快速的使用者體驗。

  • Oracle Machine LearningOracle Cloud Infrastructure Data Science 模型部署

    此架構利用 Oracle Machine LearningOracle Cloud Infrastructure Data Science 即時執行預測,為人員和應用程式提供結果。

    如果夥伴和外部實體正在使用即時預測,請考慮部署 API 閘道,以保護及管控已部署模型的使用。

  • 資料目錄

    若要在平台上儲存和流動資料的完整且全方位的端對端檢視,請考慮不只收集支援資料保存層的資料存放區,也支援來源資料存放區。將此收集的技術描述資料對應至商業詞彙,並使用自訂特性強化它,可讓您對應商業概念,以及記錄和管理安全性和存取定義。

    為了協助 Autonomous Data Warehouse 中建立虛擬化儲存在物件儲存中之資料的外部表格,請使用先前儲存在 Oracle Cloud Infrastructure Data Catalog 中的收集描述資料。這可簡化外部表格的建立作業、強制跨資料存放區執行中繼資料的一致性,而且對人為錯誤較不重要。

注意事項

收集並結合用於分析和機器學習的應用程式資料和串流事件資料時,請考慮下列實行選項。

指引 Data Refinery 資料保存平台 存取與解譯
建議
  • Oracle Cloud Infrastructure 資料整合
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure 資料科學
  • Oracle Machine Learning
其他選項
  • Oracle Data Integrator
  • Oracle Autonomous Database 資料轉換
Oracle Exadata Database Service 第三方工具
理由

Oracle Cloud Infrastructure Data Integration 提供雲端原生、無伺服器、完全受管理的 ETL 平台,可擴充且具有成本效益。

Oracle Cloud Infrastructure GoldenGate 提供雲端原生、無伺服器、完全受管理、非集中式資料複製平台,可擴充性、費用效率,並可在混合式環境中部署。

Oracle Autonomous Data Warehouse 是易於使用且完全自治的資料庫,能夠彈性調整規模、提供快速查詢效能,而且無需進行資料庫管理。它也可以使用外部或混合分割的表格,直接從物件儲存存取資料。

Oracle Cloud Infrastructure Object Storage 會以原始格式儲存無限制的資料。

Oracle Analytics Cloud 是與 Oracle Autonomous Data Warehouse 中策劃資料完全受管理且緊密整合。

Oracle Cloud Infrastructure Data Science 是一個完全受管理的自助服務平台,可讓資料科學團隊在 Oracle Cloud Infrastructure 中建立、訓練和管理機器學習 (ML) 模型。資料科學服務提供基礎架構和資料科學工具,例如 AutoML 和模型部署功能。

Oracle Machine Learning 是一個完全受管理的自助服務平台,適用於 Autonomous Data Warehouse 提供的資料科學,可利用倉儲的處理能力進行大規模建置、訓練、測試及部署 ML 模型,而不需要將資料移出倉儲外部。

部署

GitHub 上提供此參照架構的 Terraform 程式碼。只要按一下即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager,然後再建立堆疊並進行部署。或者,也可以從 GitHub 下載程式碼至您的電腦,即可自訂程式碼,然後使用 Terraform CLI 來進行部署。

  • 使用 Oracle Cloud Infrastructure Resource Manager 部署:
    1. 按一下 部署至 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 複查並接受條款與條件。
    3. 選取要部署堆疊的區域。
    4. 請依照畫面上的提示與指示建立堆疊。
    5. 建立堆疊之後,按一下「Terraform 動作」,然後選取計畫
    6. 等待工作完成,並複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。接著,再次執行計畫動作。

    7. 如果不需要進一步變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取套用
  • 使用 Terraform CLI 部署:
    1. 前往 GitHub
    2. 下載或複製程式碼至您的本機電腦。
    3. 依照 README 中的指示進行。

變更日誌

此日誌會列出重要的變更: