資料平台 - 資料湖倉儲

您可以有效地收集和分析事件資料,並從物聯網 (IoT) 和社交媒體來源串流資料,但如何將其與廣泛的企業資料資源建立關聯,以利用您的投資並獲得所需的洞察力?

運用結合資料湖和資料倉儲能力的雲端資料湖庫,處理廣泛的企業和串流資料,以進行業務分析和機器學習。

此參考架構會將技術解決方案定位在整體業務內容中,策略意圖促成可測量的策略結果。這些成果可產生新的策略意圖,有效地提供持續的資料導向業務改進。



資料湖可讓企業將所有資料儲存在符合成本效益的彈性環境中,同時提供必要的處理、持續性及分析服務來找出新的業務洞察分析。資料湖可儲存及策劃結構化與非結構化資料,並提供從多個來源組織大量高度多元化資料的方法。

使用資料倉儲,您可以在將資料確認至倉儲之前,執行資料轉換和清理。有了資料湖,您就可以快速擷取資料,並在人員存取資料時立即做好準備。資料湖支援營運報告和業務監控,需要立即存取資料和彈性分析,以瞭解業務發生時的情況。

功能架構

您可以結合資料湖和資料倉儲的功能,以提供現代化的資料湖庫平台,從廣泛的企業資料資源處理串流和其他類型的資料,讓您能夠利用資料進行業務分析、機器學習、資料服務和資料產品。

資料湖倉儲架構結合了資料湖和資料倉儲的功能,以提升營運效率並提供增強的功能,允許:

  • 無縫使用資料和資訊,無需跨資料湖和資料倉儲進行複寫
  • 多種資料類型支援增強型多模型和多語言架構
  • 使用即時、串流、批次、應用程式設計介面 (API) 和大量擷取機制,從任何消費者無縫擷取資料
  • 使用人工智慧 (AI)、生成式 AI 和機器學習 (ML) 服務持續從資料中擷取智慧
  • 透過使用 API、使用者介面、串流和整合機制,為任何資料取用者注入和提供情報的功能
  • 運用零信任安全模型的治理和微點資料安全性
  • 能夠將儲存和運算資源完全分離,並且只使用任何時間點所需的資源
  • 利用包括開源引擎在內的多個運算引擎處理不同使用案例的相同資料,以實現最大資料重複利用、流動性和使用量
  • 在資料湖中使用不同開啟的檔案和表格格式儲存資料的能力
  • 利用 Oracle 管理的 Oracle Cloud Infrastructure (OCI) 原生服務並降低營運負荷的能力
  • 透過自動調整功能,調整雲端資源基礎架構以符合實際需求,提升雲端經濟效益
  • 模組化,讓服務使用以使用案例為導向
  • 與任何遵循開放標準的系統或雲端的互通性
  • 支援多種使用案例,包括串流、分析、資料科學和機器學習
  • 支援從集中式湖庫到分散式資料網格的不同架構方法

下圖說明功能架構。



湖庫 - 功能 -oracle.zip

此架構著重於下列邏輯部門:

  • 連線、擷取、轉換

    連線至資料來源、擷取及精簡資料,以用於架構中的每個資料層。

  • 持續、策劃、建立

    協助存取與瀏覽資料以顯示目前的業務檢視。對於關聯式技術,資料在邏輯上或實體上可能會結構化成簡單的關聯式、縱向、維度或 OLAP 表單。對於非關聯式資料,此圖層包含一或多個資料集區,可從分析處理輸出,或針對特定分析任務最佳化的資料。

  • 分析、學習、預測

    抽象取用者資料的邏輯業務視圖。此抽象概念有助於開發、移轉至目標架構,以及從多個聯合來源提供單一報告層。

架構具有下列功能元件:

  • 批次擷取

    對於無法即時攝取或因即時攝取而過於昂貴的資料,批次攝取非常有用。將資料轉換為可靠且值得信賴的資訊也很重要,這些資訊可以進行策劃並持續用於定期使用。您可以一起或獨立使用下列服務,以達成高度彈性且有效的資料整合與轉換工作流程。

    • Oracle Cloud Infrastructure Data Integration 是一款完全受管理的無伺服器雲端原生服務,可擷取、載入、轉換、清除各種資料來源的資料,並將資料重新調整為目標 Oracle Cloud Infrastructure 服務,例如 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 。使用者使用直觀且無程式碼的使用者介面設計資料整合流程,將整合流程最佳化,以產生最有效率的引擎和協調流程,並自動配置及調整執行環境。

      ETL (extract transform load) leverages fully-managed, scale-out processing on Spark, and ELT (extract load transform) leverages full SQL push-down capabilities of the Autonomous Data Warehouse in order to minimize data movement and to improve the time to value for newly ingested data.

      Oracle Cloud Infrastructure Data Integration 提供互動式探索和資料準備,並定義處理綱要變更的規則,協助資料工程師防止綱要差異。

    • Oracle Data Integrator 提供全面的資料整合,從大量和高效能批次載入,到事件導向、棘手的整合處理作業,乃至啟用 SOA 的資料服務。宣告式設計方法可確保更快、更簡單的開發和維護,並提供擷取載入轉換 (ELT) 的獨特方法,有助於保證資料轉換和驗證程序的最高效能。Oracle 資料轉換使用 Web 介面來簡化 ELT 的組態和執行,並協助使用者使用宣告式設計方法建置和排定資料和工作流程。

    • Oracle Data Transforms 為選定支援的技術啟用 ELT,透過 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建立及排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous Data Warehouse (ADW) 內完全受管理的環境,可將多個資料來源的資料載入和轉換成 ADW 執行處理。

    視使用案例而定,這些元件可單獨使用或一起使用,以實現高度彈性且高效能的資料整合與轉換。

  • API 型攝取

    API 型擷取可讓應用程式和系統使用 API 或 Webhook 推送事件資料。

    • Oracle Integration 是一個完全受管理的預先設定環境,可讓您整合雲端和內部部署應用程式、將業務流程自動化,以及開發視覺化應用程式。它使用符合 SFTP 規範的檔案伺服器來儲存和擷取檔案,並透過使用數百個轉接器和處方組合與 Oracle 和第三方應用程式連線,讓您與企業對企業交易夥伴交換文件。

    • Oracle Cloud Infrastructure API Gateway 可讓您發布內含可從您網路存取之專用端點的 API,並視需要向公用網際網路公開。端點支援 API 驗證、要求和回應轉換、CORS、驗證和授權以及要求限制。

      OCI API 閘道可讓 API 可觀察性監控使用狀況並保證 SLA。使用方案也可用來監控和管理 API 用戶和用戶端,並為不同客戶設定不同的 API 存取層。使用方案是支援資料貨幣化的關鍵功能。

      使用計畫藉由建立分層使用計畫來管理 API 用戶和從屬端,以及追蹤其資料使用狀況,來支援資料貨幣化。

    • Oracle Cloud Infrastructure Functions 是一個完全託管的多租戶、高度可擴充、隨選、Functions-as-a-Service (FaaS) 平台。由 Fn Project 開放原始碼引擎提供技術支援。Functions 可讓您部署程式碼,並直接呼叫程式碼或觸發程式碼以回應事件。Oracle Functions 使用 Oracle Cloud Infrastructure Registry 中代管的 Docker 容器。

    • Oracle REST Data Services (ORDS) 是 Java 應用程式,可讓具備 SQL 和資料庫技能的開發人員開發 Oracle Database 的 REST API。任何應用程式開發人員都可以使用來自任何語言環境的這些 API,無須安裝和維護用戶端驅動程式,就像使用最廣泛使用的 API 技術 REST 存取其他外部服務一樣。

      ORDS 是部署為 Oracle Autonomous Data Warehouse 中的完全受管理功能,可用於向資料用戶使用 API 來公開湖倉一體資訊。

  • 即時攝取

    Oracle Cloud Infrastructure GoldenGate 是一項完全受管理的服務,可從內部部署或任何雲端的來源擷取資料。它運用 GoldenGate CDC 技術,即時且高效率地擷取資料並傳遞至 Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object StorageOracle Cloud Infrastructure Streaming ,讓消費者儘快提供相關資訊。

  • 大量傳輸

    大量傳輸可讓您使用不同的方法來移動大量的資料。對於大型資料湖倉儲,建議使用 Oracle Cloud Infrastructure FastConnect 和資料傳輸服務。

    • Oracle Cloud Infrastructure FastConnect 提供一個在您的資料中心與 Oracle Cloud Infrastructure 之間建立專屬私人連線的簡便方式。與網際網路型連線相比,FastConnect 提供更高的頻寬選項和更可靠的網路體驗。

    • Oracle Cloud Infrastructure (OCI) 命令行介面 (CLI) 可讓您運用 Oracle Cloud Infrastructure FastConnect 專用迴路,執行及自動化從內部部署到 OCI 的資料傳輸。OCI SDK 可讓您編寫程式碼,利用各種程式設計語言 (例如 Python、Java 或 Go) 將資料和檔案從內部部署或其他雲端複製或同步至 Oracle Cloud Infrastructure Object Storage 。REST API 可讓您連接並控制 OCI 服務,例如使用物件儲存體服務 API 將資料移到物件儲存體。
    • Oracle Cloud Infrastructure 資料傳輸是一種離線資料移轉服務,可讓您將 PB 規模的資料集,從資料中心安全地移動到 Oracle Cloud Infrastructure Object Storage 或封存儲存。使用公用網際網路搬移資料到雲端有時候並不可行,因為可能有網路成本高昂、網路連線不可靠、傳輸時間太長,以及安全性考量等問題。資料傳輸服務可以克服這些挑戰,也能大幅縮短將資料移轉到雲端所花費的時間。透過 Disk 或 Appliance 提供資料傳輸。另一方面,選擇的資料量大多取決於資料量,Data Transfer Appliance 支援每個設備的大型資料集。
  • 串流擷取

    使用 OCI 原生服務支援串流擷取,該服務允許從廣泛的資料產生器中即時擷取大規模資料集。串流擷取會保存並同步資料湖庫核心的物件儲存資料。將資料同步至物件儲存可讓您保存歷史資料,這些歷史資料可以進行策劃並進一步轉換,以擷取寶貴的洞察分析。

    • Oracle Cloud Infrastructure 串流提供完全受管理、可擴展且持久的儲存解決方案,擷取連續的大量資料串流,您可以即時使用及處理。「串流處理」可用於訊息傳遞、大量應用程式日誌、作業遙測、網路點擊串流資料,或其他以持續或循序方式產生及處理資料的發布 / 訂閱訊息傳遞模型使用案例。資料會同步至 Oracle Cloud Infrastructure Object Storage ,並可進行策劃並進一步轉換,以擷取寶貴的洞察分析。

    • Oracle Cloud Infrastructure Queue 是一項完全受管理的無伺服器服務,可協助分離系統並啟用非同步作業。佇列會處理大量交易資料,這些資料需要獨立處理的訊息,而不會遺失或重複。

    • Oracle Cloud Infrastructure Service Connector Hub 是一個雲端訊息匯流排平台,提供單一管理平台,用於描述、執行和監控 Oracle Cloud Infrastructure 中服務之間的資料移動。對於此特定參考架構,將用於將資料從 Oracle Cloud Infrastructure Streaming 或 OCI Queue 移至 Oracle Cloud Infrastructure Object Storage ,以將原始和已準備的資料保留在資料湖庫持續性層中。

  • 串流處理

    串流處理可強化串流資料、偵測事件模式,以及建立一組保存在資料湖庫中的不同串流。

    • Oracle Cloud Infrastructure GoldenGate Stream Analytics 會使用複雜的關聯模式、資料強化及機器學習,來處理及分析大規模的即時資訊。使用者可以透過即時圖表、地圖、視覺化探索即時資料,並以圖形方式建立串流管線,而無須編寫任何手寫程式碼。這些管線是在完全託管且可擴展的服務中執行,以解決現代企業的重要即時使用案例。

    • Oracle Cloud Infrastructure Data Flow 是完全受管理的大數據服務,可讓您執行 Apache Spark 和 Spark Streaming 應用程式,而不需要部署或管理基礎架構。它可以讓您更快地交付大數據和 AI 應用程式,因為您可以專注於應用程式,而無需管理操作。資料流程應用程式是可重複使用的樣板,包含 Spark 應用程式及其相依性、預設參數和預設程式實際執行資源設定。

  • 開放原始碼生態系統

    您可以使用開放原始碼生態系統:

    • 運用多種常見的開源引擎 (例如 Hadoop、Spark、Flink 或 Trino) 進行批次和串流處理
    • Oracle Cloud Infrastructure Streaming 作為產生器與消費者
    • 透過 Oracle Cloud Infrastructure Object Storage ,可同時保存資料及使用資料

    您可以使用 Oracle Cloud Infrastructure Object Storage 作為資料湖,保留您要在不同時間在不同 Oracle Cloud Infrastructure 服務之間共用的資料集。

    大數據服務會隨選提供其他技術完全設定、安全、高可用性且專用的 Hadoop、Spark 或 Flink 叢集。使用各種 Oracle Cloud Infrastructure 運算資源配置來調整叢集,以配合您的大數據和分析工作負載,這些資源配置可支援從小型測試和開發叢集到大型生產叢集的所有功能。無論是根據指標還是按排程,都能運用自動調整組態,快速調整業務需求並最佳化成本。利用叢集設定檔為特定工作負載或技術建立最佳叢集。
  • 批次處理

    批次處理會轉換儲存在資料湖庫中的大型資料集。批次處理運用與 Oracle Cloud Infrastructure Object Storage 緊密整合的 Oracle Cloud Infrastructure 原生服務,並可讓您針對使用案例 (例如資料聚總與強化、資料倉儲擷取,以及大規模使用的機器學習和 AI 資料) 建立策劃資料。

    • 上述 Oracle Cloud Infrastructure Data Integration 是一項完全受管理的無伺服器雲端原生服務,可擷取、載入、轉換、清除及重新調整各種資料來源的資料,並作為 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 等目標 Oracle Cloud Infrastructure 服務。

    • Oracle Cloud Infrastructure Data Flow 是完全受管理的大數據服務,可讓您執行 Apache Spark 和 Spark Streaming 應用程式,而不需要部署或管理基礎架構。它可以讓您更快地交付大數據和 AI 應用程式,因為您可以專注於應用程式,而無需管理操作。資料流程應用程式是可重複使用的樣板,包含 Spark 應用程式及其相依性、預設參數和預設程式實際執行資源設定。

    • Oracle Data Transforms 為選定支援的技術啟用 Extract-load-transform (ELT),透過使用 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建立及排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous Data Warehouse (ADW) 內完全受管理的環境,可將多個資料來源的資料載入和轉換成 ADW 執行處理。

      視使用案例而定,這些元件可單獨使用或一起使用,以實現高度彈性和高效能的資料處理。

  • 份量

    Oracle Autonomous Data Warehouse 是一項自我驅動、自我保護、自我修復的資料庫服務,已針對資料倉儲工作負載進行最佳化。您不需要設定或管理任何硬體,也不需要安裝任何軟體。Oracle Cloud Infrastructure 可處理資料庫的建立、備份、修補、升級和調校。

    佈建之後,您可以隨時調整 CPU 核心數目或資料庫的儲存容量,而不會影響可用性或效能。

    Oracle Autonomous Data Warehouse 也可以將物件儲存中的資料虛擬化,作為外部和混合分割的表格,讓您能夠使用倉儲資料結合及使用從其他來源衍生的資料。您也可以將歷史資料從倉儲搬移至物件儲存,然後使用混合分割的表格順暢地使用。

    Oracle Autonomous Data Warehouse 可以使用儲存在資料目錄中先前收集的中繼資料來建立外部表格,並且可以自動將資料目錄中的中繼資料更新與外部表格定義同步,以維持一致性、簡化管理並減少工作。

    Autonomous Database 支援磁區,因為它是支援多種資料類型的多模型資料庫,即關聯式、JSON、空間和圖表。磁區資料類型允許載入和儲存向量內嵌,以及建立可用於擷取擴增產生 (RAG) 應用程式的向量索引,這些全部都位於單一雲端 Autonomous Data Warehouse 執行處理中。此多模型功能可讓您使用可在單一查詢中結合的所有資料類型進行分析,從而降低每個資料類型擁有專屬獨立資料庫的複雜性和風險,同時確保提高安全性、可靠性、擴展性並簡化分析所有資料。

    Autonomous Database 功能 Select AI 可使用自然語言查詢資料,使用 LLM 將使用者的輸入文字轉換成 Oracle SQL。選取 AI 會處理自然語言提示、以中繼資料補充提示,然後產生和執行 SQL 查詢。

    資料共用是 Autonomous Database 的一項功能,能夠從使用 Autonomous Database 或 Delta-Sharing 相容技術的其他方安全地提供和使用資料和中繼資料。資料共用可讓共用提供者以抽象化基礎共用表格的檢視方式,順暢地使用資料。此外,當提供者和收件者都使用 Autonomous Database 時,也可以使用即時共用,讓收件者使用即時和全新的資料。

    分析視觀表是 Autonomous Database 功能,提供快速且有效率的方式來建立儲存在現有資料庫表格和視觀表中資料的分析查詢。分析視觀表會使用維度模型來組織資料。它們可讓您輕鬆將聚總和計算式新增至資料集,並在檢視中顯示資料,以便使用相對較簡單的 SQL 查詢。此功能可讓您使用內部和外部儲存的資料,直接在 ADW 中以語意方式建立星狀或雪花狀綱要模型,並使用 SQL 和任何符合 SQL 規範的資料用戶來允許使用模型。

    此外,Autonomous Database 的元件 Autonomous Data Lake Accelerator 可以順暢地使用物件儲存資料、調整處理以提供快速查詢、視需要自動調整資料庫運算執行處理,以及將物件儲存查詢與資料庫運算執行處理隔離,以降低對資料庫工作負載的影響。

  • 雲端儲存

    Oracle Cloud Infrastructure Object Storage 是網際網路規模的高效能儲存平台,提供可靠且符合成本效益的資料持久性。Oracle Cloud Infrastructure Object Storage 可以儲存任何內容類型的無限制非結構化資料,包括分析資料。您可以直接從網際網路或從雲端平台內,安全地儲存或擷取資料。多個管理介面可讓您輕鬆從小規模開始,然後無縫擴展,而不會發生任何效能或服務可靠性的降低情況。

    Oracle Cloud Infrastructure Object Storage 也可以用來作為資料倉儲的冷儲存層,方法是儲存不常使用的資料,然後在 Oracle Autonomous Data Warehouse 中使用混合式表格與最新資料無縫結合。

    可針對物件使用 IAM 原則強制實行物件層次精細存取控制,進而提升資料湖直接存取的資料安全性。

  • 視覺化和學習

    Oracle Analytics Cloud 是可擴展且安全的公有雲服務,可為您、您的工作群組和組織提供一組完整功能來探索和執行協作分析。它支援公民資料科學家、進階業務分析師訓練,以及執行機器學習 (ML) 模型。機器學習模型可以在分析服務上執行,也可以直接在 Oracle Autonomous Data Warehouse 上執行,作為用於利用倉儲和 OCI AI 服務 (例如 Oracle Cloud Infrastructure Vision) 處理能力、擴展性及彈性的大規模批次預測的 OML 內嵌模型。

    透過 Oracle Analytics Cloud ,您還可以獲得靈活的服務管理功能,包括快速設定、輕鬆調整規模和修補,以及自動化生命週期管理。

  • 學習與預測

    • Data Science 為資料科學團隊提供基礎架構、開源技術、程式庫、套裝程式及資料科學工具,以在 Oracle Cloud Infrastructure 中建置、訓練及管理機器學習 (ML) 模型。協同合作與專案導向的工作區提供端對端整合式使用者體驗,並支援預測模型的生命週期。資料科學可讓資料科學家和機器學習工程師免費從 Anaconda 儲存區域下載和安裝套裝軟體,從而讓他們使用機器學習程式庫的精選資料科學生態系統來創新其專案。

      資料科學工作功能可讓資料科學家在完全受管理的基礎架構上定義和執行可重複的機器學習工作。

      資料科學模型部署功能可讓資料科學家將受過訓練的模型部署為完全受管理的 HTTP 端點,以即時提供預測、將智慧融入流程和應用程式中,並讓企業在發生相關事件時對其進行反應。

    • Oracle Machine Learning 提供與 Autonomous Database 緊密整合的強大機器學習功能,並支援 Python 和 AutoML。它支援使用開源和可擴展資料庫內演算法的模型,以減少資料準備和移動。AutoML 透過使用自動演算法選擇、調適型資料抽樣、自動功能選擇和自動模型調整,協助資料科學家加快實現公司機器學習計畫價值的時間。透過 Oracle Autonomous Data Warehouse 提供的 Oracle Machine Learning 服務,您不僅可以管理模型,還可以將這些模型部署為 REST 端點,以便在公司內實現即時預測,讓企業能夠在發生相關事件時 (而不是在實際發生後) 做出反應。

  • AI 和 Generative AI 服務

    Oracle Cloud Infrastructure AI 服務提供一組立即可用的 AI 服務,可用於支援從文字分析到預測性維護的各種使用案例。這些服務具有預先建置且經過精細調整的模型,您可以使用 API 整合至資料管線、分析及應用程式。

    • Oracle Cloud Infrastructure Language 可大規模執行複雜的文字分析和翻譯。借助預先訓練和自訂模型,開發人員可以處理非結構化文字並擷取洞察力,而無需資料科學專業知識。執行情感分析、擷取關鍵詞、文字分類、命名實體識別,以及偵測文字中的 PII 資料。為網域特定任務量身打造模型,並輕鬆地跨各種語言翻譯文字。Oracle Cloud Infrastructure Language 也支援文件翻譯和非同步工作,以有效率地處理大量工作負載。

    • Oracle Cloud Infrastructure Speech 可讓您輕鬆將包含人類語音的媒體檔案轉換成高度精確的文字轉錄,藉此掌握口語語言的強大功能。OCI Speech 可用來傳輸客戶服務呼叫、自動建立字幕,以及產生媒體資產的描述資料以建立完全可搜尋的存檔。OCI Speech 支援批次和即時轉錄工作。
    • OCI Vision 會執行影像辨識與視訊分析作業,例如將影像分類、偵測物件與面,以及擷取文字。您可以利用預先訓練的模型,或針對產業和客戶特定案例輕鬆建立自訂視覺模型。OCI Vision 是完全受管理的多租用戶原生雲端服務,可協助處理所有常見的電腦視覺作業。

    • Oracle Cloud Infrastructure 文件理解會執行文件分類和文件分析工作,例如擷取文字、索引鍵值和表格。OCI Document Understanding 服務是一項完全受管理的多租用戶原生雲端服務,可協助所有一般文件分析工作。
    • Oracle Cloud Infrastructure Generative AI 是完全受管理的雲端,可提供一組最先進的可自訂大型語言模型 (LLM),其中涵蓋各種使用案例,包括交談、文字產生、摘要及建立文字內嵌。您可以使用測試區試用立即可用的預先訓練模型,或者根據自己在專用 AI 叢集上的資料建立及代管經過微調的自訂模型。
  • 資料增加內容

    資料強化可改善用於訓練機器學習模型的資料,以獲得更好且更準確的預測結果。

    Oracle Cloud Infrastructure Data Labeling 可讓您建立及瀏覽資料集、檢視資料記錄 (文字或影像),以及套用標籤以建立 AI/ML 模型。此服務也提供互動式使用者介面,旨在協助進行標籤處理。記錄加上標籤之後,可以將資料集匯出為以行分隔的 JSON,以用於 AI/ML 模型開發。
  • 搜尋

    搜尋功能可作為互補功能,向需要預先編製索引並因此具有低延遲之作業分析資料的終端使用者顯示資料。

    Oracle Cloud Infrastructure Search with OpenSearch 是一款分散式、完全受管理、免維護的全文檢索搜尋引擎。OpenSearch 可讓您以快速的回應時間,快速儲存、搜尋及分析大量資料。此服務支援開放原始碼 OpenSearch API 和 OpenSearch 儀表板資料視覺化。
  • 串流處理分析

    串流分析提供儀表板,可即時分析資料情境化,並搭配儲存在資料湖倉儲中的精選和主檔資料,以偵測之後可以提供給使用者、應用程式和項目的興趣模式。

    Oracle Cloud Infrastructure GoldenGate Stream Analytics 會使用複雜的關聯模式、資料強化及機器學習,來處理及分析大規模的即時資訊。使用者可以透過即時圖表、地圖、視覺化以及以圖形方式建立串流管線來探索即時資料,而無需進行任何手動編碼。這些管線是在完全託管且可擴展的服務中執行,以解決現代企業的重要即時使用案例。

  • 回轉 ETL/ 回寫

    反向 ETL (有時稱為回寫) 可將資料啟用至作業系統和裝置,進而將從資料衍生的智慧資訊直接推入支援業務流程的應用程式和裝置中。

    資料是使用數種機制提供給消費者,亦即透過支援大量同時提取資訊的串流與佇列 (近乎即時且與眾不同之處) 串流分析系統可透過應用程式或資料整合,透過預先建置的轉接器推送資料,或透過無伺服器功能呼叫幾乎任何應用程式或裝置端點,以提升抗逆力和擴展性。

    • Oracle Cloud Infrastructure 串流處理服務提供完全受管理、可擴展且持久的儲存解決方案,擷取連續的大量資料串流,您可以即時使用及處理。「串流處理」可用於訊息傳遞、大量應用程式日誌、作業遙測、網路點擊串流資料,或其他以持續或循序方式產生及處理資料的發布 / 訂閱訊息傳遞模型使用案例。

    • Oracle Cloud Infrastructure Queue 是一項完全受管理的無伺服器服務,可協助分離系統並啟用非同步作業。佇列會處理大量交易資料,這些資料需要獨立處理的訊息,而不會遺失或重複。

    • Oracle Integration Cloud 是一個完全受管理的預先設定環境,可將雲端和內部部署應用程式整合、自動化業務流程、開發符合 SFTP 規範的檔案伺服器來儲存及擷取檔案,以及使用數百個轉接器和處方組合與 B2B 交易夥伴交換業務文件,以便與 Oracle 和第三方應用程式連線。

    • Oracle Data Transforms 為選定支援的技術啟用 ELT,透過 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建立及排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous Data Warehouse (ADW) 內完全受管理的環境,可將多個資料來源的資料載入和轉換成 ADW 執行處理。

    • Oracle Cloud Infrastructure Functions 是一個完全受管理的多租戶、可高度擴展、可隨選、函數即服務平台。它以企業級 Oracle Cloud Infrastructure 為基礎,並由 Fn Project 開放原始碼引擎提供技術支援。

  • API

    API 層可讓您將從 Data ScienceOracle Machine Learning 衍生的智慧融入應用程式、業務流程和項目中,以影響並改善其作業與功能。此 API 層可安全地使用資料科學部署的模型至 Oracle Machine Learning REST 端點,並能夠治理系統以確保程式實際執行環境的可用性。您也可以視需要利用函數來執行其他邏輯。

    • Oracle Cloud Infrastructure API Gateway 可讓您發布內含可從您網路存取之專用端點的 API,如果您想要讓 API 接受網際網路流量,可以使用公用 IP 位址公開這些 API。端點支援 API 驗證、要求和回應轉換、CORS、驗證和授權以及要求限制。它允許 API 可觀察性監控使用狀況並保證 SLA。使用方案也可用來監控和管理存取 API 的 API 用戶和 API 用戶端,並為不同客戶設定不同的存取層,以追蹤使用 API 所使用的資料使用量。使用方案是支援資料貨幣化的關鍵功能。

    • Oracle Cloud Infrastructure Functions 是一個完全受管理的多租戶、可高度擴展的隨選函數即服務平台。它以企業級 Oracle Cloud Infrastructure 為基礎,並由 Fn Project 開放原始碼引擎提供技術支援。

    • Oracle REST Data Services (ORDS) 是一個 Java 應用程式,可讓具備 SQL 和資料庫技能的開發人員開發 Oracle Database 的 REST API。任何應用程式開發人員都可以使用來自任何語言環境的這些 API,無須安裝和維護用戶端驅動程式,與使用最廣泛使用的 API 技術 REST 存取其他外部服務的方式相同。ORDS 是在 ADW 中部署為完全受管理的功能,可用來向資料用戶使用 API 公開湖倉一體資訊。

  • 資料管控

    Oracle Cloud Infrastructure Data Catalog 可讓您檢視中繼資料和個別屬性等技術資產所在的位置,並提供維護對應至該技術中繼資料的業務詞彙表的功能。「資料目錄」也可以將描述資料提供給 Oracle Autonomous Data Warehouse ,以協助在資料倉儲中建立外部表格。

  • 資料安全性

    資料安全性在探索和使用湖庫資料時至關重要。運用零信任安全模型搭配深度防禦和 RBAC 功能,並確保符合最嚴格的法規,資料安全可提供預防、偵測及更正安全控制,以確保防止資料外洩和外洩。

    • Oracle Data Safe 是完全整合的 Oracle Cloud 服務,專注於資料安全性。它提供完整且整合的一組功能,用以保護 Oracle Cloud 資料庫 (例如 Oracle Autonomous Data Warehouse) 中的敏感和受監管的資料。功能包括安全評估、使用者評估、資料探索、資料遮罩和活動稽核。

    • Oracle Cloud Infrastructure Audit 提供與 Oracle Cloud Infrastructure (OCI) 資源和租用戶相關活動的能見度。稽核日誌事件可用來進行安全性稽核,以追蹤 OCI 資源的使用情況和變更,以及協助確保遵守標準與法規。

    • Oracle Cloud Infrastructure Logging 為租用戶中的所有日誌提供可高度擴展且完全受管理的單一介面,包括稽核日誌。使用 OCI 日誌記錄存取所有 OCI 資源的日誌,以便啟用、管理及搜尋這些日誌。

    • Oracle Cloud Infrastructure Vault 是一項加密管理服務,可儲存及管理加密金鑰和加密密碼,以安全地存取資源。讓客戶管理的金鑰用於 Oracle Autonomous Data Warehouse 和資料湖加密,以提升靜態資料保護。讓加密密碼能夠安全地儲存服務和使用者憑證,以改善您的安全狀態,並確保憑證不會被入侵和使用不當。

實體架構

此資料湖庫的實體架構支援下列項目:

  • 使用來自關聯式和非關聯式資料來源的微批次、串流、API 和檔案,安全地擷取資料
  • 運用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的組合來處理資料
  • 資料儲存在 Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 中,並根據其品質和價值進行組織
  • Oracle Autonomous Data Warehouse 為消費者安全地提供倉儲和湖泊資料服務
  • Oracle Analytics Cloud 使用視覺化將資料向業務使用者顯示
  • Oracle Analytics Cloud 會透過使用 Oracle Cloud Infrastructure Web Application Firewall (WAF) 保護的 Oracle Cloud Infrastructure Load Balancing 來公開,以透過網際網路提供存取
  • Oracle Cloud Infrastructure Data Science 用於建置、訓練及部署機器學習 (ML) 模型
  • Oracle Cloud Infrastructure API Gateway 運用來管理資料科學 ML 模型部署
  • Oracle Cloud Infrastructure Data CatalogOracle Autonomous Data Warehouse 和物件儲存收集中繼資料
  • Oracle Data Safe 會評估資料風險、實行及監督安全控制、評估使用者安全、監督使用者活動,以及解決資料安全規範需求
  • Oracle Cloud Infrastructure Bastion 是由管理員用來管理私有雲資源

下圖說明此參考架構。



湖庫 - 架構 -oracle.zip

實體架構的設計:

  • 利用 2 個 VCN,一個用於集線器,另一個用於工作負載本身
  • 內部部署連線運用 Oracle Cloud Infrastructure FastConnect 和網站至網站 VPN 進行備援
  • 內部部署和網際網路的所有內送流量會先遞送至中樞 VCN,然後再遞送至工作負載 VCN
  • 所有資料都在傳輸中安全無虞
  • 服務會與專用端點一起部署,以增加安全態勢
  • VCN 已隔離至數個專用子網路,以增加安全態勢
  • 運用 Medallion 架構將資料湖資料隔離至物件儲存的數個儲存桶

簡單性假的部署未描述潛在的設計改善包括:

  • 利用完全符合 CIS 規範的登陸區
  • 利用網路防火牆檢查所有流量並強制實行原則,以改善整體安全態勢

建議

使用下列建議作為處理串流資料的起點,以及用於業務分析和機器學習的廣泛企業資料資源。

您的需求可能與此處所述的架構不同。

  • Oracle Autonomous Data Warehouse

    此架構在共用基礎架構上使用 Oracle Autonomous Data Warehouse

    • 啟用自動調整功能,讓資料庫工作負載的處理能力達到三倍。
    • 如果您想要在公有雲上執行的專用資料庫雲端環境內使用自助服務資料庫功能,請考慮在專用基礎架構上使用 Oracle Autonomous Data Warehouse
    • 考慮使用 Autonomous Data Warehouse 的混合分割表格功能,將資料的分割區移至 Oracle Cloud Infrastructure Object Storage ,並以透明方式將它們提供給使用者和應用程式。我們建議您將此功能用於不常使用且不需要與儲存在 Autonomous Data Warehouse 中之資料相同的效能資料。
    • 請考慮使用外部表格功能,即時使用儲存在 Oracle Cloud Infrastructure Object Storage 中的資料,而不需要將其複製到 Autonomous Data Warehouse 。此功能通透且無縫地結合在 Autonomous Data Warehouse 外部策劃的資料集,無論格式 (parquet、avro、orc、json、csv 等),以及 Autonomous Data Warehouse 的資料。
    • 請考慮使用資料庫記憶體內功能,大幅提升即時分析和混合工作負載的效能。將湖倉一體資料載入需要提供低延遲且位於 ADW 內部、混合分割或外部表格的記憶體。
    • 使用物件儲存資料時,請考慮使用 Autonomous Data Lake Accelerator,為在資料倉儲與資料湖之間使用及結合資料的使用者提供改進且更快的體驗。
    • 請考慮將向量內嵌儲存在 Autonomous Data Warehouse 以及其他資料類型 (例如關聯式資料或 JSON 資料),以簡化所有資料的資料工程與分析,並使用所有資料有效地接地 RAG 代理程式。
    • 考慮使用 Select AI 作為加速器,建立簡單且複雜的 SQL,可用於資料工程、商業智慧、應用程式開發或任何需要建立 SQL 的任務。
    • 請考慮將 Select AI 與低程式碼應用程式搭配使用,進一步簡化應用程式層。
    • 請考慮使用「分析視觀表」直接在 ADW 中以語意方式建立 DW 星形或雪花狀底層綱要的模型,以便在不需要預先聚總的情況下自動聚總精細資料,使用與任何 SQL 相容從屬端 (包括 Oracle Analytics Cloud) 一致的 SQL 來確保事實和 KPI 不論用戶端為何,都可一致地提供所有資料,無論資料儲存在 ADW 或物件儲存中,都可以在語意模型上使用,讓此功能成為資料湖倉儲架構的完美語意模型建立層,其中事實和維度可以遍訪 DW 和資料湖。
    • 如果因為公司或法規政策而需要完全控制 ADW 加密金鑰,請考慮使用客戶管理的金鑰來運用 Vault 服務。
    • 請考慮在 ADW 中使用 Database Vault 來防止未經授權的使用者存取機密資料,進而防止資料外洩和資料外洩。
    • 請考慮使用 Autonomous Data Guard 透過在相同區域或其他區域上的待命執行個體上設定和複製資料,以支援業務連續性計畫。
    • 請考慮使用動態資料遮罩搭配資料隱匿,以根據使用者角色提供遮罩資料,並保證適當的資料存取,無須進行資料複製和靜態遮罩。
    • 請考慮使用 ADW 複製來快速建立其他暫時或非暫時環境。如果目標環境需要有最新資料,請使用可重新整理複製項。使用 Oracle Data Safe 以靜態方式遮罩複製中的機密資料,以提高安全性。
    • 請考慮使用資料共用作為安全且簡單的方式,與其他 Autonomous Database 執行處理或任何符合差異共用規範的技術使用及提供資料。
    • 考慮在 Autonomous Database 執行處理之間使用即時資料共用,以即時使用及提供資料。
    • 請考慮使用版本化資料共用,與用戶共用資料。這可避免查詢資料的成本,因為資料是由消費者處理,而不是由供應商處理。
    • 請考慮在 ADW 上使用預先認證的要求 URL 進行唯讀的時間限定資料存取,以便在用戶不支援差異共用的使用案例中共用非機密資料。
  • 物件儲存 / 資料湖

    此架構使用 Oracle Cloud Infrastructure Object Storage 作為湖儲存,這是可高度擴展且持久的雲端儲存。

    • 考慮運用中介架構 (銅、銀、金色) 或其他分割邏輯,根據資料品質和強化隔離資料,組織不同組儲存桶中的湖泊、對讀取資料的消費者強制執行微點安全性,以及將不同的生命週期管理原則套用至不同層。
    • 請考慮使用不同的物件儲存層和生命週期原則,以最佳化大規模儲存湖資料的成本。
    • 如果因為公司或法規政策而需要完全控制物件儲存加密金鑰,請考慮使用客戶管理的金鑰來運用 Vault 服務。
    • 請考慮使用物件儲存複寫,透過設定將儲存桶複寫至另一個區域,以支援業務連續性計畫。由於物件儲存非常持久,且在單一區域中維護數個相同物件的複本,因此不需要在相同的區域儲存桶複寫上復原。
    • 考慮對物件使用 Oracle Cloud Infrastructure Identity and Access Management (IAM) 原則,使用物件名稱或模式來提升資料湖直接存取的資料安全性。
    • 請考慮使用 Oracle Cloud Infrastructure Object Storage 中的專用端點,以確保從資料平台 VCN 對資料湖進行安全和專用存取。
    • 請考慮使用網路來源和 IAM 原則來管理授權存取資料湖儲存桶和物件的 IP 位址。
    • 請考慮使用 python 型公用程式 OCIFS,將 Oracle Cloud Infrastructure Object Storage 儲存桶掛載為檔案系統,以便支援僅與 NFS 搭配運作且需要將檔案上傳至物件儲存的應用程式。
  • Oracle Machine LearningOracle Cloud Infrastructure Data Science

    此架構運用 Oracle Machine LearningOracle Cloud Infrastructure Data Science ,對人員和應用程式即時執行和提供預測。

    • 請考慮在 OCI Data Science 或 Oracle Machine Learning 中使用 AutoML 來加速 ML 模型開發。
    • 請考慮使用 Open Neural Networks Exchange (ONNX) 來實現互通性。ONNX 第三方模型可以部署到 OML 中,並公開為 REST 端點或 OCI Data Science,並且公開為 HTTP 端點。
    • 請考慮將 OCI Data Science 中的模型儲存為 ONNX,然後將模型匯入 OCI GoldenGate Stream Analytics (如果需要在即時資料管線中執行評分和預測),以便有更及時的預測來推動即時業務成果。
    • 請考慮使用 OCI Data Science Conda 環境,以便在 Jupyter 記事本階段作業內更好地管理和封裝 Python 相依性。運用 OCI Data Science 內的 Anaconda 策劃套裝程式儲存區域,使用您最愛的開源工具來建置、訓練及部署模型。
    • 考慮使用 Oracle Cloud Infrastructure Data Science AI Quick Actions 在 OCI Data Science 中部署、評估及微調基礎模型。使用模型總管中提供的精選開源 LLM 或自備模型。
    • 考慮使用 Accelerated Data Science Python 套件中提供的 Data Science 低程式碼 AI 運算子,以快速且有效率地執行預測、異常偵測或建置建議功能。
    • 請考慮在 Data Science Jupyter 環境中使用 OCI Data Flow,以利用 Spark 橫向擴展處理大規模執行勘查資料分析、資料分析及資料準備。
    • 請考慮使用 Data Labeling 為影像、文字或文件等資料加上標籤,然後用來訓練以 OCI Data Science 或 OCI AI Services 建立的 ML 模型,進而提升預測的準確性。
    • 如果合作夥伴和外部實體正在使用即時預測,請考慮部署 API 閘道,以保護和管理已部署模型的使用情況。
  • Oracle Cloud Infrastructure Data Integration

    此架構使用 Oracle Cloud Infrastructure Data Integration 支援宣告式、無程式碼或低程式碼 ETL 和資料管線開發。

    • 利用 Oracle Cloud Infrastructure Data Integration 協調和排定 Oracle Cloud Infrastructure Data Flow 應用程式執行,並能夠將宣告式 ETL 與自訂的 Spark 程式碼邏輯進行混合和比對。使用 Oracle Cloud Infrastructure Data Integration 內的函數進一步擴充資料管線的功能。
    • 請考慮對將 ADW 作為目標的轉換使用 SQL 下推,以使用比 ETL 更有效率、效能和安全的 ELT 方法。
    • 請考慮允許 OCI Data Integration 處理資料來源綱要差異,以便擁有更具彈性且未來驗證的資料管線,以維持資料來源綱要變更。
  • Oracle Cloud Infrastructure Data Flow

    此架構使用 Oracle Cloud Infrastructure Data Flow 來支援大規模的 Spark 和 Spark 串流處理,而不需要擁有及管理永久叢集。

    • 請考慮使用 Oracle Cloud Infrastructure Data Catalog 作為 Oracle Cloud Infrastructure Data Flow 的 Hive 描述資料存放區,以便安全地儲存和擷取非結構化和半結構化資料資產 (例如 Oracle Cloud Infrastructure Object Storage) 中物件的綱要定義。
    • 如果湖資料需要進行 ACID 交易及串流與批次處理的統一,請考慮在 OCI 資料流程上使用 Delta Lake。
  • 大數據服務

    此架構運用 Oracle Cloud Infrastructure Big Data Service ,部署各種開源技術 (例如 Spark、Hadoop、Trino 或 Flink) 的高可用性與可擴展叢集,以處理批次和串流資料。Big Data Service 會保存 HDFS 中的資料、保存並讀取 Oracle Cloud Infrastructure Object Storage 中的資料,並且可以與其他 Oracle Cloud Infrastructure 服務 (例如 Oracle Cloud Infrastructure Data FlowOracle Autonomous Data Warehouse) 交換資料集。

    • 請考慮使用自動調整功能,根據指標或排程自動水平或垂直擴展工作者節點,以根據資源需求持續優化成本。
    • 請考慮使用 OCI HDFS 連接器讓 Object Storage 讀取和寫入 Object Storage 的資料,因此提供機制來產生 / 使用與其他 OCI 服務共用的資料,而不需要複製和複製資料。
    • 如果湖資料需要進行 ACID 交易及串流與批次處理的統一,請考慮在 OCI BDS 上使用 Delta Lake。
    • 如果您需要使用其他開源軟體,請考慮使用 Oracle Cloud Infrastructure Registry 、容器執行處理或 Oracle Cloud Infrastructure Kubernetes Engine 來部署任何可容器化的開源軟體。
  • Oracle Cloud Infrastructure 串流

    此架構運用 Oracle Cloud Infrastructure Streaming 來使用來源的串流資料,以及提供串流資料給消費者。

    考慮利用 Oracle Cloud Infrastructure Service Connector Hub 從 Oracle Cloud Infrastructure 串流移動資料,並保存在 Oracle Cloud Infrastructure Object Storage 上,以支援進一步的歷史資料分析。

  • Oracle Analytics Cloud

    此架構運用 Oracle Analytics Cloud (OAC) 為一般使用者提供增強分析。

    考慮運用 OAC 預建與 OCI AI 服務 (語言和願景模型) 和 OML (任何模型) 的整合,將智慧內嵌至資料流程和一般使用者使用的視覺化中,進而民主化 AI 和 ML 消耗。

  • Oracle Cloud Infrastructure AI 服務

    此架構可以根據部署的使用案例,運用 Oracle Cloud Infrastructure AI 服務。

    請考慮使用資料標註功能來標註用於調整的訓練資料,並取得視覺、文件理解及語言等 AI 服務的更準確預測。

  • Oracle Cloud Infrastructure Generative AI 服務

    此架構可根據部署的使用案例,運用 Oracle Cloud Infrastructure Generative AI 服務。

    • 考慮使用使用預先訓練 LLM 的隨選遊樂場和 API 來處理文字生成、對話、資料萃取、摘要、分類、樣式轉移或語意相似性,並快速將生成式 AI 內嵌到您的管線和流程中。
    • 請考慮使用專用 AI 叢集,以有效率地調適及微調資料基礎 LLM,以確保完全隔離和資料安全性。
    • 請考慮在組織內在不同團隊內共用代管專用 AI 叢集,以提高成本效益。單一叢集可用來代管數個自訂模型,所有模型都可與獨立端點搭配使用,並可透過專用的 IAM 原則保護。
  • API 閘道

    此架構運用 API 閘道安全地公開資料服務,並即時推斷資料用戶。

    • 請考慮使用 Oracle Cloud Infrastructure Functions ,最終新增所需的執行階段邏輯,以支援超出資料處理範圍和存取與解譯層的特定 API 處理。
    • 請考慮使用「使用狀況計畫」來管理訂戶對 API 的存取、監督和管理 API 使用狀況、為不同的用戶設定不同的存取層,以及透過追蹤可提供給外部計費系統的使用狀況度量來支援資料貨幣化。
  • Oracle Cloud Infrastructure 資料目錄

    若要完整且全面的端對端檢視儲存在平台上的資料和流程,請考慮收集不僅支援資料保存層的資料存放區,還包括來源資料存放區。將此收集的技術中繼資料對應至業務詞彙,並使用自訂特性加以強化,可讓您對應業務概念,以及記錄和管理安全性和存取定義。

    • 為了協助建立虛擬化儲存在 Oracle Cloud Infrastructure Object Storage 上資料的 Oracle Autonomous Data Warehouse 外部表格,請運用先前由 Oracle Cloud Infrastructure Data Catalog 收集的描述資料。這樣可以簡化外部表格的建立、強制跨資料存放區的描述資料一致性,而且較不容易發生人為錯誤。
    • 考慮使用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的歷程追蹤來檢視資料的擷取、轉換及儲存方式。為了增加涵蓋範圍,請使用以 API 為基礎的擷取,利用 OpenLineage 開放式架構來追蹤任何來源和系統的歷程。
  • Oracle Cloud Infrastructure 資料傳輸服務

    若透過公用網際網路連線上傳資料不可行,請使用 Oracle Cloud Infrastructure 資料傳輸服務。如果透過公用網際網路上傳資料需要超過 1-2 週,建議您考慮改用資料傳輸。

  • 資料安全和稽核

    利用稽核和警示功能提高安全性狀態,將可防止資料外洩,並在發生資料外洩時執行鑑識分析。

    • 請考慮使用 Oracle Data Safe 稽核資料倉儲中的活動,並考慮使用 Oracle Cloud Infrastructure Audit 稽核資料湖資料的流量。
    • 請考慮使用 Oracle Data Safe 在 ADW 上尋找機密資料,並在為非生產環境建立 ADW 複製時以靜態方式遮罩,以避免安全風險。
    • 請考慮在 ADW 使用 Oracle Data Safe SQL 防火牆來提高資料安全性狀態,以防止 SQL 資料隱碼攻擊或洩漏帳戶等風險。
  • 部署與自動化

    此實體架構使用基礎架構即程式碼 (IaC) 自動化部署,以建立部署資料湖庫的資源

    Oracle Cloud Infrastructure Resource Manager 可讓您建立可部署雲端資源的 Terraform 堆疊、共用和管理基礎架構組態,以及建立跨多個團隊和平台的檔案狀態。請考慮使用 Oracle Cloud Infrastructure Resource Manager 建立非生產環境建立的部署堆疊、加入需要額外服務的新團隊,以及標準化並嵌入遵循組織安全性與治理定義原則的一致 IAM 原則與安全性保全。

  • 業務連續性

    此架構描述單一區域中的部署,可延伸兩個區域以支援災害復原,並啟用業務持續性計畫。

  • Oracle Cloud Infrastructure Full Stack Disaster Recovery Service 是一項災害復原協調流程和管理服務,可針對應用程式堆疊的所有層級 (包括基礎架構、中介軟體、資料庫和應用程式) 提供全方位的災害復原功能。

    請考慮使用 Full Stack Disaster Recovery 來設定資料湖庫的切換和容錯移轉計畫,以自動化災害復原工作,並在計畫性或非計畫性轉換至待命區域時,減少手動步驟。

  • 成本最佳化

    請考慮使用 Oracle Cloud Infrastructure 的成本和使用量追蹤以及成本最佳化功能,以持續支援您的財務作業。

    • 請考慮使用成本和使用量報表,以取得並追蹤雲端資源使用量和個別成本。運用為與第三方財務營運解決方案整合而產生的業界標準 FOCUS CSV 成本報表。
    • 請考慮使用成本分析來追蹤不同團隊、專案和環境所產生的成本。
    • 請考慮使用成本追蹤標記,為特定團隊、專案或環境標記雲端資源。
    • 請考慮使用預算來設定支出的寬鬆限制,並設定警示,讓您知道何時可能超出專案、團隊或整體支出的預算。
  • 互通性

    此架構運用廣泛的產業標準,與任何組織更廣泛的 IT 異質環境互通,以便將任何資料消耗並提供給任何應用程式、系統或人員。

    此架構支援開放式檔案格式,例如 Parquet 或 Avro,因此資料可以針對每個使用案例使用更適當的格式儲存。此外,它也支援開放式表格格式,例如 Iceberg 和 Delta Lake,以確保 Oracle 技術與其他第三方技術之間的互通性。
    • 請考慮使用 Oracle Autonomous Data Warehouse Iceberg 支援來讀取資料湖上保存的 Iceberg 表格,並為消費者提供服務。Iceberg 表格可以做為外部表格或載入 ADW 。
    • 請考慮使用資料流程 Delta Lake Universal Format 支援來讀取、處理及保存資料湖中的資料。在產生其他開放表格格式 (例如 Iceberg 和 Hudi) 的中繼資料時使用 Delta Lake,可讓不同的處理引擎讀取相同的資料。
  • 組織法

    此架構具有彈性,可支援不同類型的組織方法,範圍從集中到完全分散的方法,因此任何想要從資料中擷取值的組織都可以採用和使用。

    此架構運用 OCI Identity and Access Management (IAM) 進行認證和授權的廣泛精細控制。

    請考慮使用 IAM 區隔不同的業務和團隊,使用湖倉一體分散建立資料產品的擁有權,如果您的組織想要採用分散式組織方法,則強制執行資料網域隔離。

    OCI 運用 Terraform 和 Ansible 等架構,以自動化和基礎架構即程式碼作為成功部署架構的關鍵功能。

    如果您的組織採用分散式方法,並根據該方法實作資料領域,請考慮利用預先建置的地形樣板和 OCI 資源管理程式,在資料平台中快速且一致地將資料領域導入資料領域。

注意事項

收集、處理及策劃用於分析和機器學習的應用程式資料時,請考慮下列導入選項。

引導 建議 其他選項 理由
資料轉換處理作業
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Database 資料轉型

Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。

Oracle Cloud Infrastructure GoldenGate 提供可擴展、符合成本效益且可部署在混合式環境中的雲端原生、無伺服器、完全受管理、非侵入式資料複製平台。

資料持續性
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse 是一個易於使用、完全自治的資料庫,可彈性調整規模、提供快速查詢效能,且無須任何資料庫管理。它也提供從物件儲存外部或混合分割表格直接存取資料的功能。

Oracle Cloud Infrastructure Object Storage 以原始格式儲存無限資料。

資料處理
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure 大數據服務
第三方工具

Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。

Oracle Cloud Infrastructure Data Flow 提供無伺服器的 Spark 環境,以隨用隨付、極具彈性的模型大規模處理資料。

Oracle Cloud Infrastructure Big Data Service 提供企業級 Hadoop 即服務,具備端對端安全性、高效能,以及易於管理和升級性。

訪問和解譯
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI 服務
第三方工具

Oracle Analytics CloudOracle Autonomous Data Warehouse 中的精選資料完全受管理且緊密整合。

Data Science 是一個完全受管理的自助服務平台,供資料科學團隊在 Oracle Cloud Infrastructure 中建置、訓練和管理機器學習 (ML) 模型。資料科學服務提供基礎架構和資料科學工具,例如 AutoML 和模型部署功能。

Oracle Machine Learning 是一個完全受管理的自助服務平台,適用於 Oracle Autonomous Data Warehouse 所提供的資料科學,運用倉儲的處理能力大規模建置、訓練、測試及部署 ML 模型,而不需要將資料移到倉儲之外。

Oracle Cloud Infrastructure AI 服務是一組服務,提供專為執行任務 (例如推斷潛在異常或偵測情感) 而建立的預先建置模型。

部署

此參照架構的 Terraform 程式碼可從 GitHub 取得。只要按一下即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager ,然後建立堆疊並進行部署。或者,您也可以使用 Terraform CLI 將程式碼從 GitHub 下載至電腦、自訂程式碼,以及部署架構。
  • 使用 Oracle Cloud Infrastructure Resource Manager 進行部署:
    1. 按一下 部署至 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 複查並接受條款與條件。
    3. 選取要在其中部署堆疊的區域。
    4. 依照螢幕上的提示和指示建立堆疊。
    5. 建立堆疊之後,按一下 Terraform 動作,然後選取計畫
    6. 等待工作完成,然後複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。然後,再次執行計畫 (Plan) 動作。

    7. 如果不需要進一步變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取套用
  • 使用 Terraform CLI 部署:
    1. 請前往 GitHub
    2. 複製或下載儲存區域至您的本機電腦。
    3. 遵循 README 文件中的指示。

確認

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

變更日誌

此日誌列出重大變更: