資料平台 - 資料湖倉一體

您可以有效地收集和分析事件資料,並從物聯網 (IoT) 和社群媒體來源串流資料,但如何將其與廣泛的企業資料資源建立關聯,以利用您的投資並取得所需的洞察力?

利用結合資料湖和資料倉儲能力的雲端資料湖庫,處理廣泛的企業和串流資料,以進行業務分析和機器學習。

此參考架構將技術解決方案定位在整體業務情境中,策略意圖推動可衡量策略結果的創造。這些成果可產生新的策略意圖,有效地持續提供資料導向的業務改進。



資料湖可讓企業將其所有資料儲存在符合成本效益的彈性環境中,同時提供必要的處理、持續性及分析服務來探索新的業務洞察力。資料湖會儲存並策劃結構化與非結構化資料,並提供組織多個來源大量多樣化資料的方法。

使用資料倉儲,您可以在將資料確認至倉儲之前,先執行資料轉換和清理。透過資料湖,您可以快速擷取資料,並在人員存取資料時即時準備資料。資料湖支援營運報告和業務監控,需要立即存取資料和彈性分析,以瞭解業務在發生時所發生的情況。

功能架構

您可以結合資料湖和資料倉儲的功能,提供現代化的資料湖庫平台,從廣泛的企業資料資源處理串流和其他類型的資料,以便您可以運用資料進行業務分析、機器學習、資料服務和資料產品。

資料湖庫架構結合了資料湖和資料倉儲的功能,以提高營運效率,並提供增強的功能,允許:

  • 無需在資料湖和資料倉儲之間複寫資料和資訊,即可無縫使用資料和資訊
  • 在增強的多模型和多語言架構中支援多種資料類型
  • 使用即時、串流、批次、應用程式設計介面 (API) 和大量擷取機制,順暢地從任何消費者擷取資料
  • 使用人工智慧 (AI)、生成式 AI 和機器學習 (ML) 服務持續從資料中擷取智慧
  • 透過使用 API、使用者介面、串流和整合機制,為任何資料用戶注入和提供智慧功能
  • 運用零信任安全模型的治理和微點資料安全性
  • 可完全取消結合儲存和運算資源,並且只使用任何時間點所需的資源
  • 運用多種運算引擎 (包括開源引擎) 處理不同使用案例的相同資料,以實現最大資料重新處理、流動性和使用量
  • 能夠在資料湖中使用不同的開啟檔案和表格格式儲存資料
  • 運用由 Oracle 管理的 Oracle Cloud Infrastructure (OCI) 原生服務,降低營運負荷
  • 透過自動調整功能,調整雲端資源基礎架構以符合實際需求,從而提高雲端經濟效益
  • 模組化,讓服務使用以使用案例為導向
  • 與任何遵循開放標準的系統或雲端互通性
  • 支援多種使用案例,包括串流、分析、資料科學和機器學習
  • 支援從集中式湖庫到分散式資料網格的不同架構方法

下圖說明功能架構。



lakehouse- 功能 -oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

此架構著重於下列邏輯劃分:

  • 連線、擷取、轉換

    連線至資料來源、擷取及調整其資料,以用於架構中的每個資料層。

  • 持續、策劃、建立

    協助存取和導覽資料,以顯示目前的業務視圖。對於關聯式技術,資料可以在簡單關聯式、縱向、維度式或 OLAP 表單中邏輯或實體結構化。對於非關聯式資料,此層包含一或多個資料集區,可輸出自分析程序或針對特定分析工作最佳化的資料。

  • 分析、學習、預測

    摘要消費者資料的邏輯業務檢視。此抽象有助於靈活的開發方法、移轉至目標架構,以及從多個聯合來源提供單一報告層。

此架構具有下列功能元件:

  • 批次擷取

    批次擷取對於無法即時擷取或因應即時擷取而太過昂貴的資料很有用。將資料轉換成可靠且值得信賴的資訊也很重要,這些資訊可以經過策劃和保存以供定期使用。您可以將下列服務一起使用或獨立使用,以實現高度彈性且有效的資料整合與轉換工作流程。

    • Oracle Cloud Infrastructure Data Integration 是完全受管理的無伺服器服務,可用於設計及執行資料管線。它可以無縫擷取、轉換資料,並將其載入 OCI 目標中,例如 Autonomous AI LakehouseOCI Object Storage 。使用者可以透過可自動擴展執行環境的無程式碼直觀式介面來建置整合流程。它同時支援 ETL 與 Spark 型處理,以及使用 SQL Pushdown 提供效能與效率的 ELT。此服務也提供資料準備工具,並透過以規則為基礎的處理防止綱要漂移。

    • Oracle Data Integrator 提供從大量和高效能批次載入到事件驅動、棘手的整合流程,到支援 SOA 的資料服務的全方位資料整合。宣告式設計方法可確保更快、更簡單的開發和維護,並提供擷取載入轉換 (ELT) 的獨特方法,有助於保證資料轉換和驗證流程的最高效能。Oracle 資料轉換使用 Web 介面來簡化 ELT 的組態和執行,並協助使用者使用宣告式設計方法建置和排定資料和工作流程。

    • Oracle Data Transforms 可啟用所選支援技術的 ELT,透過 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建置和排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous AI Lakehouse 內的完全受管理環境,可將多個資料來源的資料載入並轉換成 Oracle Autonomous AI Lakehouse 實例。

    視使用案例而定,這些元件可獨立使用或一起使用,以實現高度彈性且高效能的資料整合與轉換。

  • 以 API 為基礎的擷取

    API 型擷取可讓應用程式和系統使用 API 或 Webhook 推送事件資料。

    • Oracle Integration 是完全受管理的預先設定環境,可讓您整合雲端和內部部署應用程式、將業務流程自動化,以及開發視覺應用程式。它使用符合 SFTP 規範的檔案伺服器來儲存和擷取檔案,並允許您使用數百個轉接器和處方組合來與 Oracle 和第三方應用程式連線,與企業對企業交易夥伴交換文件。

    • Oracle Cloud Infrastructure API Gateway 可讓您發布具有可從網路存取之專用端點的 API,並視需要向公用網際網路公開這些 API。端點支援 API 驗證、要求與回應轉換、CORS、認證與授權,以及要求限制。

      OCI API Gateway 允許 API 可觀察性監控使用情況並保證 SLA。使用量計畫也可用來監控和管理 API 用戶和用戶端,以及為不同客戶設定不同的 API 存取層。用量計畫是支援資料貨幣化的關鍵功能。

      使用量計畫透過建立分層使用量計畫來管理 API 用戶和用戶端,並追蹤其資料使用量,以支援資料貨幣化。

    • Oracle Cloud Infrastructure Functions 是一個完全託管、多租用戶、可高度擴展、隨選、函數即服務 (FaaS) 平台。它由 Fn Project 開放原始碼引擎提供技術支援。OCI Functions 可讓您部署程式碼,以及直接呼叫程式碼或觸發程式碼以回應事件。OCI Functions 使用 Oracle Cloud Infrastructure Registry 中代管的 Docker 容器。

    • Oracle REST Data Services (ORDS) 是一個 Java 應用程式,可讓任何具備 SQL 和資料庫技能的開發人員為 Oracle Database 開發 REST API。任何應用程式開發人員都可以從任何語言環境使用這些 API,而不需要安裝和維護用戶端驅動程式,就像使用最廣泛使用的 API 技術 REST 存取其他外部服務一樣。

      ORDS 在 Oracle Autonomous AI Lakehouse 中部署為完全受管理的功能,並可使用 API 向資料取用者顯示湖倉一體資訊。

  • 即時擷取

    Oracle Cloud Infrastructure GoldenGate 是完全受管理的服務,可讓您從位於內部部署或任何雲端的來源擷取資料。它運用 GoldenGate CDC 技術,即時且大規模地擷取及傳遞至 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object StorageOracle Cloud Infrastructure Streaming ,讓消費者儘快提供相關資訊。

  • 大量傳輸

    大量傳輸可讓您使用不同的方法來移動大量的資料。對於大型資料湖庫,我們建議使用 Oracle Cloud Infrastructure FastConnect 和資料傳輸服務。

    • Oracle Cloud Infrastructure FastConnect 會在您的資料中心與 OCI 之間建立專用的專用連線。與基於網際網路的連線相比,FastConnect 提供更高的頻寬選項以及更可靠的網路體驗。

    • Oracle Cloud Infrastructure (OCI) 命令行介面 (CLI) 可讓您運用 Oracle Cloud Infrastructure FastConnect 專用迴路,執行資料從內部部署傳輸至 OCI 並將其自動化。OCI SDK 可讓您撰寫程式碼,運用各種程式設計語言 (例如 Python、Java 或 Go) 來從內部部署或其他雲端複製或同步資料和檔案至 Oracle Cloud Infrastructure Object Storage 。REST API 可讓您連接和控制 OCI 服務,例如使用物件儲存服務 API 將資料移入物件儲存。
    • Oracle Cloud Infrastructure 資料傳輸是一種離線資料移轉服務,可讓您安全地將 PB 級資料集從資料中心移至 Oracle Cloud Infrastructure Object Storage 或 Archive Storage。使用公用網際網路搬移資料到雲端有時候並不可行,因為可能有網路成本高昂、網路連線不可靠、傳輸時間太長,以及安全性考量等問題。資料傳輸服務可以克服這些挑戰,也能大幅縮短將資料移轉到雲端所花費的時間。資料傳輸可透過 Disk 或 Appliance 使用。Data Transfer Appliance 支援每個設備的較大資料集,因此可以選擇彼此決定的資料量。
  • 串流擷取

    使用 OCI 原生服務支援串流擷取,該服務允許從廣泛的資料產生器集即時擷取大規模資料集。串流擷取會持續保存並同步物件儲存中的資料,這是資料湖庫的核心。將資料同步至物件儲存,可讓您保留可策劃並進一步轉換的歷史資料,以擷取寶貴的洞察分析。

    • Oracle Cloud Infrastructure Streaming 提供完全受管理、可擴展且持久耐用的儲存解決方案,讓您即時擷取連續的大量資料串流。串流可用於訊息傳遞、大量應用程式日誌、作業遙測、Web 點擊流資料,或其他發布 - 訂閱訊息傳遞模型使用案例,這些使用案例會持續並循序產生和處理資料。資料會同步至 Oracle Cloud Infrastructure Object Storage ,並可加以策劃並進一步轉換以擷取寶貴的洞察。

    • Oracle Cloud Infrastructure Queue 是完全受管理的無伺服器服務,可協助將系統分離並啟用非同步作業。佇列會處理需要獨立處理之訊息的大量交易資料,而不會遺失或重複。

    • Oracle Cloud Infrastructure Service Connector Hub 是一個雲端訊息匯流排平台,提供單一管理平台,用於描述、執行和監控 Oracle Cloud Infrastructure 中服務之間的資料移動。對於此特定參考架構,將使用它將資料從 Oracle Cloud Infrastructure Streaming 或 OCI Queue 移至 Oracle Cloud Infrastructure Object Storage ,以將原始資料和準備的資料保存層中。

  • 串流處理

    串流處理可強化串流資料、偵測事件模式,以及建立一組保留在資料湖庫中的不同串流。

    • Oracle Cloud Infrastructure GoldenGate Stream Analytics 是一款完全託管的可擴充服務,可透過使用複雜的關聯模式、資料強化及機器學習來處理和分析大規模的即時資訊。使用者可以使用即時圖表、地圖和視覺化來探索即時資料。使用者可以使用圖形化工具建立串流管線,無須手動編寫程式碼。

    • Oracle Cloud Infrastructure Data Flow 是一項完全受管理的大數據服務,可讓您無須部署或管理基礎架構,即可執行 Apache Spark 和 Spark Streaming 應用程式。它可讓您更快地交付大數據和 AI 應用程式,因為您可以專注於應用程式,而無需管理作業。資料流程應用程式是由 Spark 應用程式與其相依性、預設參數以及預設程式實際執行資源規格所組成的可重複使用樣板。

  • 開源生態系統

    您可以使用開源生態系統:

    • 運用多個熱門的開源引擎 (例如 Hadoop、Spark、Flink 或 Trino) 進行批次處理和串流處理
    • 使用 Oracle Cloud Infrastructure Streaming 作為產生器與消費者
    • 有了 Oracle Cloud Infrastructure Object Storage ,它可以保存資料及使用資料

    您可以使用 Oracle Cloud Infrastructure Object Storage 作為資料湖,以保存您要在不同時間在不同 Oracle Cloud Infrastructure 服務之間共用的資料集。

    Big Data Service 可視需要在其他技術之間佈建完全設定、安全、高可用性且專屬的 Hadoop、Spark 或 Flink 叢集。使用一系列支援從小型測試和開發叢集到大型生產叢集的所有功能的 Oracle Cloud Infrastructure 運算資源配置,擴展叢集以符合大數據和分析工作負載。運用自動調整組態 (無論是根據指標或按時程),快速調整業務需求並最佳化成本。利用叢集設定檔,為特定工作負載或技術建立最佳叢集。
  • 批次處理

    批次處理會轉換儲存在資料湖庫中的大型資料集。批次處理利用與 Oracle Cloud Infrastructure Object Storage 無縫整合的 Oracle Cloud Infrastructure 原生服務,並允許您為使用案例 (例如資料聚總與強化、資料倉儲擷取,以及大規模的機器學習和 AI 資料) 建立策劃資料。

    • 上述的 Oracle Cloud Infrastructure Data Integration 是完全託管的無伺服器雲端原生服務,可擷取、載入、轉換、清理及重新塑造來自各種資料來源的資料至目標 Oracle Cloud Infrastructure 服務,例如 Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage

    • Oracle Cloud Infrastructure Data Flow 是一項完全受管理的大數據服務,可讓您無須部署或管理基礎架構,即可執行 Apache Spark 和 Spark Streaming 應用程式。它可讓您更快地交付大數據和 AI 應用程式,因為您可以專注於應用程式,而無需管理作業。資料流程應用程式是由 Spark 應用程式與其相依性、預設參數以及預設程式實際執行資源規格所組成的可重複使用樣板。

    • Oracle Data Transforms 為所選支援的技術啟用 Extract-load-transform (ELT),透過 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建置和排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous AI Lakehouse 內的完全受管理環境,可將多個資料來源的資料載入並轉換成 Oracle Autonomous AI Lakehouse 實例。

      視使用案例而定,這些元件可單獨使用或共同使用,以實現高度彈性且高效能的資料處理。

  • 份量

    Oracle Autonomous AI Lakehouse 是一種自主驅動、自主防護、自主修復的資料庫服務,已針對資料倉儲工作負載進行最佳化。您不需要設定或管理任何硬體,或安裝任何軟體。OCI 會處理資料庫的建立、備份、修正、升級和調整。

    佈建之後,您可以隨時調整資料庫的 CPU 核心數目或儲存容量,而不會影響可用性或效能。

    Oracle Autonomous AI Lakehouse 也可以將位於物件儲存中的資料虛擬化為外部和混合分割表格,以結合和使用來自其他來源的資料與倉儲資料。您也可以將歷史資料從倉儲移至物件儲存,然後使用混合分割表格以無縫接軌的方式使用。

    Oracle Autonomous AI Lakehouse 可以使用先前在資料目錄中收集的中繼資料來建立外部表格,並自動將資料目錄中的中繼資料更新與外部表格定義同步,以維持一致性、簡化管理並減少工作。

    Autonomous Database 支援向量,因為它是支援多種資料類型的多模型資料庫,即關聯式、JSON、空間和圖表。向量資料類型允許在單一雲端 Autonomous AI Lakehouse 執行個體中載入和儲存向量內嵌,以及建立可用於檢索增強生成 (RAG) 應用程式的向量索引。此多模型功能使用可在單一查詢中結合的所有資料類型進行分析,從而降低每個資料類型擁有專用獨立資料庫的複雜性和風險,同時確保提高所有資料的安全性、可靠性、擴展性和易於分析。

    Select AI 是一項自治式 AI 資料庫功能,允許使用自然語言查詢資料,使用 LLM 將使用者的輸入文字轉換為 Oracle SQL。Select AI 會處理自然語言提示,以中繼資料補充提示,然後產生和執行 SQL 查詢。

    Autonomous AI Database 的資料共用功能,能夠從使用 Autonomous AI Database 或 Delta-Sharing 相容技術的其他方安全地提供和使用資料和中繼資料。「資料共用」可讓您以抽象化基礎共用表格的檢視方式,輕鬆使用共用提供者的資料。此外,當提供者和收件者使用 Autonomous AI Database 時,也可以使用允許收件者使用即時和最新資料的即時共用。

    分析視觀表是自治式 AI 資料庫功能,提供快速且有效率的方式來建立儲存在現有資料庫表格和視觀表中的資料分析查詢。分析視觀表會使用維度模型來組織資料。他們可讓您輕鬆將彙總與計算新增至資料集,並在檢視中呈現資料,這些資料可透過相對簡單的 SQL 查詢。此功能可讓您使用內部和外部儲存的資料,在 Oracle Autonomous AI Lakehouse 中以語意方式直接建立星狀或雪花狀綱要模型,並使用 SQL 和任何 SQL 相容資料取用者來允許使用模型。

    此外,Autonomous Data Lake Accelerator 是 Autonomous AI Database 的一部分,可以無縫使用物件儲存資料、擴展處理以提供快速查詢、視需要自動調整資料庫運算執行個體,並透過隔離資料庫運算執行個體的物件儲存查詢來減少對資料庫工作負載的影響。

  • 雲端儲存

    Oracle Cloud Infrastructure Object Storage 是一個網際網路規模的高效能儲存平台,可提供可靠且符合成本效益的資料持久性。Oracle Cloud Infrastructure Object Storage 可以儲存任何內容類型的無限量非結構化資料,包括分析資料。您可以直接從網際網路或雲端平台進行資料安全、安全地儲存,或擷取資料。多個管理介面可讓您輕鬆從小規模開始,並無縫擴展,而不會發生任何效能或服務可靠性的降低。

    Oracle Cloud Infrastructure Object Storage 也可以用來作為資料倉儲的冷儲存層,方法是儲存不常使用的資料,然後使用 Oracle Autonomous AI Lakehouse 中的混合表格,以無縫接軌的方式與最新資料結合。

    您可以使用物件的 IAM 原則強制實行物件層次精細存取控制,增加資料湖直接存取的資料安全性。

  • 視覺化與學習

    Oracle Analytics Cloud 是一項可擴充且安全的公共雲端服務,提供一套完整的功能,可為您、您的工作群組和您的企業探索及執行協作分析。它支援公民資料科學家、進階業務分析師訓練,以及執行機器學習 (ML) 模型。機器學習模型可在分析服務上執行,或直接在 Oracle Autonomous AI Lakehouse 上執行,作為運用倉儲和 OCI AI 服務 (例如 Oracle Cloud Infrastructure Vision) 處理能力、可擴展性和彈性的大規模批次預測的 OML 嵌入模型。

    藉助 Oracle Analytics Cloud ,您還可以獲得靈活的服務管理功能,包括快速設定、輕鬆擴展和修補,以及自動化生命週期管理。

  • 學習並預測

    • Data Science 為資料科學團隊提供基礎架構、開放原始碼技術、程式庫、套裝程式和資料科學工具,讓資料科學團隊在 Oracle Cloud Infrastructure 中建置、訓練及管理機器學習 (ML) 模型。協同合作式和專案導向的工作區提供端對端整合式使用者體驗,並支援預測模型的生命週期。

      資料科學工作功能可讓資料科學家在完全受管理的基礎架構上定義和執行可重複的機器學習工作。

      資料科學模型部署功能可讓資料科學家將受過訓練的模型部署為完全受管理的 HTTP 端點,以即時提供預測、將智慧融入流程和應用程式中,並讓企業在發生相關事件時做出反應。

    • Oracle Machine Learning 提供強大的機器學習功能,與 Autonomous AI Database 緊密整合,並支援 Python 和 AutoML。它支援使用開放原始碼和可擴展的資料庫內演算法的模型,以減少資料準備和移動。AutoML 使用自動演算法選擇、調適型資料抽樣、自動功能選擇和自動模型調整功能,協助資料科學家加快對公司機器學習計畫的價值。藉助 Oracle Autonomous AI Lakehouse 中提供的 Oracle Machine Learning 服務,您不僅可以管理模型,還可以將這些模型部署為 REST 端點,以民主化公司內部的即時預測,讓企業能夠在發生相關事件時 (而非事實後) 做出反應。

  • AI 和生成式 AI 服務

    Oracle Cloud Infrastructure AI 服務提供一組立即可用的 AI 服務,可用來支援各種使用案例,從文字分析到預測性維護。這些服務具有預先建置且經過精細調整的模型,您可以使用 API 整合至資料管線、分析及應用程式。

    • Oracle Cloud Infrastructure Language 可大規模執行複雜的文字分析和翻譯。透過預先訓練和自訂模型,開發人員無需具備資料科學專業知識即可處理非結構化文字並擷取洞察分析。執行情感分析、擷取關鍵詞、文字分類、命名實體識別,以及偵測文字中的 PII 資料。為網域特定任務量身打造模型,並輕鬆跨各種語言翻譯文字。Oracle Cloud Infrastructure Language 也支援文件翻譯和非同步工作,以有效率地處理大量工作負載。

    • Oracle Cloud Infrastructure Speech 可讓您將包含人類語音的媒體檔案轉換為高度準確的文字轉錄,藉此利用口語的功能。OCI Speech 可用於轉錄客戶服務電話、自動轉字及產生媒體資產的中繼資料,以建立完全可搜尋的檔案。OCI Speech 支援批次和即時轉錄工作。
    • Oracle Cloud Infrastructure Vision 是一項 AI 服務,可根據深度學習大規模執行影像分析。OCI Vision 會執行影像辨識和視訊分析任務,例如將影像分類、偵測物件和面,以及擷取文字。您可以運用預先訓練的模型,或輕鬆為特定產業和特定客戶的案例建立自訂視覺模型。OCI Vision 是完全受管理的多租戶原生雲端服務,可協助處理所有常見的電腦視覺任務。有了立即可用的預建模型,開發人員無需機器學習 (ML) 專長,即可輕鬆在應用程式中建立影像辨識和文字辨識。

    • Oracle Cloud Infrastructure 文件理解可執行文件分類和文件分析任務,例如擷取文字、索引鍵值和資料表。OCI Document Understanding 是完全受管理的多租用戶原生雲端服務,可協助所有一般文件分析工作。
    • Oracle Cloud Infrastructure Generative AI 是完全託管的,提供一組最先進的可自訂大型語言模型 (LLM),涵蓋各種使用案例,包括交談、文字產生、摘要及建立文字內嵌。使用操場試用現成的預先訓練模型,或根據專屬 AI 叢集上的自己資料建立及代管自己的微調自訂模型。
  • 資料增強

    資料強化可以改善用於訓練機器學習模型的資料,以獲得更好且更準確的預測結果。

    Oracle Cloud Infrastructure 資料標註功能可讓您建立和瀏覽資料集、檢視資料記錄 (文字或影像),以及套用標籤以建置 AI/ML 模型。此服務也提供互動式使用者介面,旨在協助進行標籤處理。標示記錄之後,資料集可以匯出為以線分隔的 JSON,以用於 AI/ML 模型開發。
  • 搜尋

    搜尋功能可作為輔助功能,向需要預先編製索引且延遲不足之作業分析資料的一般使用者顯示資料。

    Oracle Cloud Infrastructure Search with OpenSearch 是分散式、完全受管理、免維護的全文檢索搜尋引擎。OpenSearch 可讓您以快速回應時間快速儲存、搜尋和分析大量資料。此服務支援開放原始碼 OpenSearch API 和 OpenSearch Dashboards 資料視覺化。
  • 串流處理分析

    串流分析提供儀表板,透過儲存在資料湖庫中的精選和主檔資料,即時分析串流資料,以偵測感興趣的模式,然後為使用者、應用程式和事物提供服務。

    Oracle Cloud Infrastructure GoldenGate Stream Analytics 使用精密的關聯模式、資料強化及機器學習來處理及分析大規模的即時資訊。使用者可以透過即時圖表、地圖、視覺化及圖形方式建置串流管線來探索即時資料,而無須手動編寫程式碼。這些管線是在完全託管且可擴展的服務中執行,以解決現代企業的關鍵即時使用案例。

  • 回轉 ETL/ 回寫

    反向 ETL (有時稱為回寫) 可在作業系統和裝置中啟用資料啟用,進而將從資料衍生的智慧功能直接傳入用來支援業務流程的應用程式和裝置中。

    使用數種機制向消費者提供資料,即使用支援大量消費者同時提取近乎即時且與眾多消費者脫鉤的串流和佇列串流分析系統可透過使用預先建置的轉接器植入資料,或使用無伺服器函數幾乎呼叫任何應用程式或裝置端點,藉此提升復原能力和擴展性。

    • Oracle Cloud Infrastructure Streaming 服務提供完全受管理、可擴充且持久耐用的儲存解決方案,讓您即時擷取連續的大量資料串流。串流可用於訊息傳遞、大量應用程式日誌、作業遙測、Web 點擊流資料,或其他發布 - 訂閱訊息傳遞模型使用案例,這些使用案例會持續並循序產生和處理資料。

    • Oracle Cloud Infrastructure Queue 是完全受管理的無伺服器服務,可協助將系統分離並啟用非同步作業。佇列會處理需要獨立處理之訊息的大量交易資料,而不會遺失或重複。

    • Oracle Integration 是一個完全受管理的預先設定環境,可整合雲端和內部部署應用程式、自動化業務流程、開發視覺應用程式、使用符合 SFTP 規範的檔案伺服器儲存和擷取檔案,以及使用數百個轉接器和處方組合與 B2B 交易夥伴交換商業文件,以與 Oracle 和第三方應用程式連線。

    • Oracle Data Transforms 可啟用所選支援技術的 ELT,透過 Web 使用者介面簡化資料管線的組態和執行,讓使用者能夠以宣告方式建置和排定資料流程和工作流程。Oracle Data Transforms 是 Oracle Autonomous AI Lakehouse 內的完全受管理環境,可將多個資料來源的資料載入並轉換成 Oracle Autonomous AI Lakehouse 實例。

    • Oracle Cloud Infrastructure Functions 是一個完全託管、多租用戶、可高度擴展、隨選、功能即服務平台。它是以企業級 Oracle Cloud Infrastructure 為基礎,並由 Fn Project 開放原始碼引擎提供技術支援。

  • API

    API 層可讓您將從資料科學Oracle Machine Learning 衍生的智慧融入應用程式、業務流程以及影響並改善其作業和功能。API 層提供資料科學部署模型對 Oracle Machine Learning REST 端點的安全使用,並能夠控管系統以確保執行時期環境的可用性。您也可以視需要利用函數來執行其他邏輯。

    • Oracle Cloud Infrastructure API Gateway 可讓您發布具有可從網路存取之專用端點的 API,如果您希望 API 接受網際網路流量,可以使用公用 IP 位址公開這些 API。端點支援 API 驗證、要求與回應轉換、CORS、認證與授權,以及要求限制。它可讓 API 可觀察性監控使用狀況並保證 SLA。使用量計畫也可用來監控和管理存取 API 的 API 用戶和 API 用戶端,以及為不同客戶設定不同的存取層,以追蹤使用 API 所使用的資料使用情況。用量計畫是支援資料貨幣化的關鍵功能。

    • Oracle Cloud Infrastructure Functions 是一個完全託管、多租用戶、可高度擴展、隨選、功能即服務平台。它是以企業級 Oracle Cloud Infrastructure 為基礎,並由 Fn Project 開放原始碼引擎提供技術支援。

    • Oracle REST Data Services (ORDS) 是一個 Java 應用程式,可讓具備 SQL 和資料庫技能的開發人員為 Oracle Database 開發 REST API。任何應用程式開發人員都可以從任何語言環境使用這些 API,而不需要安裝和維護用戶端驅動程式,就像使用最廣泛使用的 API 技術 REST 存取其他外部服務一樣。ORDS 在 Oracle Autonomous AI Lakehouse 中部署為完全受管理的功能,並可使用 API 向資料取用者顯示湖倉一體資訊。

  • 資料治理

    Oracle Cloud Infrastructure Data Catalog 可檢視中繼資料和個別屬性等技術資產所在的位置,並提供維護對應至該技術中繼資料的業務詞彙的能力。資料目錄也可以為 Oracle Autonomous AI Lakehouse 提供中繼資料,以協助在資料倉儲中建立外部表格。

  • 資料安全性

    資料安全性對於探索和使用湖倉一體資料至關重要。利用具有深度防禦和 RBAC 功能的零信任安全模型,並確保符合最嚴格的法規,資料安全性提供預防、偵測和更正安全控制,以確保防止資料外洩和外洩。

    • Oracle Data Safe 是完全整合的 Oracle Cloud 服務,著重於資料安全性。它提供一組完整的整合式功能,可保護 Oracle Cloud 資料庫中的機密和受規範資料,例如 Oracle Autonomous AI Lakehouse 。功能包括安全評估、使用者評估、資料探索、資料遮罩和活動稽核。

    • Oracle Cloud Infrastructure Audit 可讓您檢視與 Oracle Cloud Infrastructure (OCI) 資源和租用戶相關的活動。稽核日誌事件可用於安全稽核,以追蹤 OCI 資源的使用情況與變更,並協助確保符合標準與法規。

    • Oracle Cloud Infrastructure Logging 為租用戶中的所有日誌 (包括稽核日誌) 提供了可高度擴展且完全管理的單一介面。您可以使用 OCI 日誌記錄存取所有 OCI 資源的日誌,以便啟用、管理及搜尋這些資源。

    • Oracle Cloud Infrastructure Vault 是一項加密管理服務,可儲存及管理加密金鑰和加密密碼,以安全地存取資源。讓客戶管理的金鑰可用於 Oracle Autonomous AI Lakehouse 和資料湖加密,以提升靜態資料保護。啟用加密密碼以安全地儲存服務和使用者憑證,以改善您的安全性狀態,並確保憑證不會遭到入侵及不當使用。

實體架構

此資料湖倉儲的實體架構支援下列項目:

  • 使用來自關聯式和非關聯式資料來源的微批次、串流、API 和檔案,安全地擷取資料
  • 運用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的組合來處理資料
  • 資料儲存在 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage 中,並根據其品質和價值進行組織
  • Oracle Autonomous AI Lakehouse 可安全地為消費者提供倉儲和湖泊資料服務
  • Oracle Analytics Cloud 使用視覺化來向業務使用者顯示資料
  • Oracle Analytics Cloud 使用受 Oracle Cloud Infrastructure Web Application Firewall (WAF) 保護的 Oracle Cloud Infrastructure Load Balancer ,透過使用網際網路提供存取。
  • Oracle Cloud Infrastructure Data Science 用於建置、訓練及部署機器學習 (ML) 模型
  • Oracle Cloud Infrastructure API Gateway 利用它來管理資料科學 ML 模型部署
  • Oracle Cloud Infrastructure Data Catalog 可從 Oracle Autonomous AI Lakehouse 和物件儲存擷取中繼資料
  • Oracle Data Safe 會評估資料的風險、實行和監督安全控制、評估使用者安全性、監督使用者活動,以及滿足資料安全規範需求
  • 管理員可以使用 Oracle Cloud Infrastructure Bastion 管理私有雲資源

下圖說明此參照架構。



lakehouse- 架構 -oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

實體架構的設計:

  • 利用 2 個 VCN,一個用於中樞,另一個用於工作負載本身
  • 內部部署連線運用 Oracle Cloud Infrastructure FastConnect 和網站至網站 VPN 進行備援
  • 來自內部部署和來自網際網路的所有內送流量會先遞送至中樞 VCN,然後再遞送至工作負載 VCN
  • 所有資料在傳輸中和靜態都是安全的
  • 服務會與專用端點一起部署,以增加安全態勢
  • VCN 會隔離成數個專用子網路以增加安全態勢
  • 資料湖資料會運用冥想架構,區隔成物件儲存中的數個儲存桶

此部署未針對簡易性驗證所描述的潛在設計改善包括:

  • 運用符合 CIS 規範的完整登陸區
  • 利用網路防火牆檢查所有流量並強制執行原則,以改善整體安全狀態

建議

使用下列建議作為處理串流資料和廣泛企業資料資源的起點,以進行業務分析和機器學習。

您的需求可能與此處說明的架構不同。

  • Oracle Autonomous AI Lakehouse

    此架構在共用基礎架構上使用 Oracle Autonomous AI Lakehouse

    • 啟用自動調整功能,讓資料庫工作負載最多達到處理能力的 3 倍。
    • 如果您想要在公有雲上執行的專用資料庫環境內使用自助服務資料庫功能,請考慮在專用基礎架構上使用 Oracle Autonomous AI Lakehouse
    • 考慮使用 Autonomous AI Lakehouse 的混合分割表格功能,將資料分割區移至 Oracle Cloud Infrastructure Object Storage ,並以透明的方式將資料分割區提供給使用者和應用程式。我們建議您將此功能用於不常使用的資料,且不需要與自治式 AI 湖倉一體中儲存的資料相同的效能。
    • 您可以考慮使用外部表格功能,即時使用儲存在 Oracle Cloud Infrastructure Object Storage 中的資料,而不需要將資料複製到 Autonomous AI Lakehouse 。此功能透明且無縫接軌地結合在 Autonomous AI Lakehouse 之外策劃的資料集,無論格式 (parquet、avro、orc、JSON、csv 等等),以及位於 Autonomous AI Lakehouse 的資料。
    • 請考慮使用資料庫記憶體內功能,大幅提升即時分析和混合工作負載的效能。將湖倉一體資料載入需要低延遲且位於 Autonomous AI Lakehouse 內部、混合分割或外部表格中的記憶體中。
    • 在使用物件儲存資料時,考慮使用 Autonomous AI Lakehouse Accelerator,為在資料倉儲和資料湖之間使用和加入資料的使用者提供更高且更快速的體驗。
    • 您可以考慮將向量內嵌項目儲存在 Autonomous AI Lakehouse 中,以及其他資料類型 (例如關聯式資料或 JSON 資料) 中,以簡化所有資料的資料工程和分析,並使用所有資料有效率地建立 RAG 代理程式。
    • 考慮使用 Select AI 作為加速器,建立簡單複雜的 SQL,可用於資料工程、商業智慧、應用程式開發或需要建立 SQL 的任何任務。
    • 請考慮將 Select AI 與低程式碼應用程式搭配使用,以進一步簡化應用程式層。
    • 考慮使用分析視觀表直接在自治式 AI 湖倉一體中以語意方式建立 DW 星狀或雪花基礎綱要的模型,以便在不需要預先聚總的情況下自動聚總精細資料,使用 SQL 與任何符合 SQL 規範的從屬端 (包括 Oracle Analytics Cloud) 一致使用語意模型,以確保事實和 KPI 不論從屬端為何,一律都會提供所有資料,無論資料是儲存在 Autonomous AI LakehouseOCI Object Storage 中,都可以在語意模型上使用,讓此功能成為湖倉一體架構的完美語意模型製作層,事實和維度可以橫跨 DW 和湖。
    • 如果因公司或法規政策而需要完全控制 Autonomous AI Lakehouse 加密金鑰,請考慮使用 OCI Vault 的客戶管理金鑰。
    • 您可以考慮在 Autonomous AI Lakehouse 中使用 Database Vault,以防止未經授權的授權使用者存取機密資料,進而防止資料外流和資料外洩。
    • 您可以考慮使用 Oracle Autonomous Data Guard ,在相同區域或另一個區域的待命執行處理上設定及複製資料,以支援業務連續性計畫。
    • 考慮使用動態資料遮罩搭配「資料隱匿」,視使用者的角色為使用者提供遮罩資料,因此可確保適當的資料存取,而無須進行資料複製和靜態遮罩。
    • 您可以考慮使用 Autonomous AI Lakehouse 複製,以快速建立其他臨時或非臨時環境。如果目標環境需要有最新的資料,請使用可重新整理複製項。使用 Oracle Data Safe 以靜態方式遮罩複製中的機密資料,以提高安全性。
    • 您可以考慮使用資料共用作為安全且簡單的方式來使用及提供資料,無論是與其他 Autonomous AI Database 執行處理或任何 Delta Sharing 相容技術搭配使用。
    • 考慮在 Autonomous AI Database 執行個體之間使用即時資料共用,以即時使用及提供資料。
    • 請考慮使用版本化資料共用功能與用戶共用資料。這可避免查詢資料的成本,因為資料是由用戶處理,而不是由提供者處理。
    • 您可以考慮在 Autonomous AI Lakehouse 上使用預先驗證的要求 URL 進行唯讀、有時間限制的資料存取,以便為消費者不支援 Delta Sharing 的使用案例共用不敏感的資料。
  • 物件儲存 / 資料湖

    此架構使用 Oracle Cloud Infrastructure Object Storage ,這是可高度擴展且持久的雲端儲存,作為資料湖儲存。

    • 您可以考慮運用獎牌架構 (銅級、銀級、金級) 或其他分割邏輯,跨不同組別組織湖泊,根據資料的品質和強化來區隔資料,為閱讀資料的消費者強制執行微點安全性,並將不同的生命週期管理原則套用至不同的層。
    • 考慮使用不同的物件儲存層和生命週期原則,以最佳化大規模儲存湖資料的成本。
    • 如果因公司或法規政策而需要完全控制 OCI Object Storage 加密金鑰,請考慮使用客戶管理的金鑰來運用保存庫服務。
    • 您可以考慮使用 OCI Object Storage 複寫,透過設定儲存桶複寫至另一個區域來支援業務連續性計畫。由於 OCI Object Storage 具有高持久性,因此不需要在單一區域中維護多個相同物件的副本,即可在相同的區域貯體複製上進行復原。
    • 您可以考慮使用物件名稱或樣式為物件使用 Oracle Cloud Infrastructure Identity and Access Management (IAM) 原則,以提高資料湖直接存取的資料安全性。
    • 您可以考慮在 OCI Object Storage 中使用專用端點,以確保從資料平台 VCN 對資料湖的安全和專用存取。
    • 考慮使用網路來源和 IAM 原則來參考它們,以管理獲授權存取資料湖儲存桶和物件的 IP 位址。
    • 您可以考慮使用以 python 為基礎的公用程式 OCIFS 將 OCI Object Storage 儲存桶掛載為檔案系統,以支援僅與 NFS 搭配運作且需要將檔案上傳至物件儲存的應用程式。
  • Oracle Machine LearningOracle Cloud Infrastructure Data Science

    此架構利用 Oracle Machine LearningOracle Cloud Infrastructure Data Science 執行並即時對人員和應用程式提供預測。

    • 請考慮在 Oracle Cloud Infrastructure Data ScienceOracle Machine Learning 中使用 AutoML 來加速 ML 模型開發。
    • 請考慮使用 Open Neural Networks Exchange (ONNX) 進行互通性操作。ONNX 第三方模型可以部署到 OML 中,並顯示為 REST 端點或資料科學中,並顯示為 HTTP 端點。
    • 考慮將資料科學中的模型儲存為 ONNX,並將其匯入 OCI GoldenGate Stream Analytics (如果需要在即時資料管線中執行評分和預測),以更及時地預測,從而推動即時業務成果。
    • 請考慮使用 Data Science Conda 環境,以便在 Jupyter 筆記型電腦階段作業內更好地管理和封裝 Python 相依性。
    • 請考慮使用 Oracle Cloud Infrastructure Data Science AI Quick Actions,在 Data Science 中部署、評估及微調基礎模型。使用模型總管中提供的精選開源 LLM,或自備模型。
    • 考慮使用 Accelerated Data Science Python 套件中的資料科學低程式碼 AI 操作員,以快速且有效率地執行預測、異常偵測或建立推薦人功能。
    • 考慮在 Data Science Jupyter 環境中使用 Oracle Cloud Infrastructure Data Flow ,運用 Spark 橫向擴展處理大規模執行探索性資料分析、資料分析和資料準備。
    • 考慮使用 Oracle Cloud Infrastructure Data Labeling 來標示影像、文字或文件等資料,然後用來訓練以 Data ScienceOracle Cloud Infrastructure AI Services 為基礎的 ML 模型,進而提高預測的準確度。
    • 如果合作夥伴和外部實體正在使用即時預測,請考慮部署 OCI API Gateway ,以保護和管理已部署模型的使用。
  • Oracle Cloud Infrastructure Data Integration

    此架構使用 Oracle Cloud Infrastructure Data Integration 來支援宣告式、無程式碼或低程式碼 ETL 和資料管線開發。

    • 利用 Oracle Cloud Infrastructure Data Integration 協調及排定 Oracle Cloud Infrastructure Data Flow 應用程式執行,並且能夠將宣告式 ETL 與自訂 Spark 程式碼邏輯混合並比對。使用 Oracle Cloud Infrastructure Data Integration 內的函數進一步擴充資料管線的功能。
    • 請考慮使用 SQL 下推來進行 Autonomous AI Lakehouse 作為目標的轉換,以使用比 ETL 更有效率、更高效能且更安全的 ELT 方法。
    • 考慮允許 OCI Data Integration 處理資料來源綱要漂移,以具有更具彈性和未來證明的資料管線,以維持資料來源綱要變更。
  • Oracle Cloud Infrastructure Data Flow

    此架構使用 Oracle Cloud Infrastructure Data Flow 來支援大規模 Spark 和 Spark 串流處理,而不需要擁有和管理永久叢集。

    • 您可以考慮使用 Oracle Cloud Infrastructure Data Catalog 作為 Oracle Cloud Infrastructure Data Flow 的 Hive 描述資料存放區,以便安全地儲存和擷取非結構化和半結構化資料資產 (例如 Oracle Cloud Infrastructure Object Storage) 中物件的綱要定義。
    • 如果需要進行資料湖資料的 ACID 交易和串流與批次處理的統一,請考慮在資料流程上使用 Delta Lake。
  • 大數據服務

    此架構利用 Oracle Cloud Infrastructure Big Data Service 來部署可處理批次和串流資料的各種開源技術 (例如 Spark、Hadoop、Trino 或 Flink) 的高可用性且可擴展叢集。Big Data Service 會保存 HDFS 中的資料、保存及讀取 OCI Object Storage 中的資料,並且可以與其他 Oracle Cloud Infrastructure 服務 (例如資料流程Oracle Autonomous AI Lakehouse) 交換資料集。

    • 您可以考慮使用自動調整功能,根據指標或排程自動水平或垂直擴展工作節點,以根據資源需求持續最佳化成本。
    • 請考慮使用 OCI Object Storage 的 OCI HDFS 連接器來讀取和寫入 OCI Object Storage 的資料,藉此提供產生 / 使用與其他 OCI 服務共用之資料的機制,而不需要複製和複製資料。
    • 如果需要 ACID 交易,以及資料湖資料需要統一串流和批次處理,請考慮在 OCI BDS 上使用 Delta Lake。
    • 如果您需要使用其他開源軟體,請考慮使用 Oracle Cloud Infrastructure Registry 、容器執行處理或 Oracle Cloud Infrastructure Kubernetes Engine 來部署任何可容器化的開源軟體。
  • Oracle Cloud Infrastructure 串流處理

    此架構利用 Oracle Cloud Infrastructure Streaming 來使用來源的串流資料,以及提供串流資料給用戶。

    您可以考慮利用 Oracle Cloud Infrastructure Service Connector Hub 從 OCI Streaming 移動資料,並在 OCI Object Storage 上保存資料,以支援進一步的歷史資料分析。

  • Oracle Analytics Cloud

    此架構利用 Oracle Analytics Cloud (OAC),為終端使用者提供增強分析。

    考慮利用 OAC 預建的整合與 Oracle Cloud Infrastructure AI Services (語言和願景模型) 和 OML (任何模型),將智慧功能嵌入資料流程和視覺化中,讓一般使用者能夠使用,進而將 AI 和 ML 消耗民主化。

  • Oracle Cloud Infrastructure AI Services

    根據部署的使用案例,此架構可以運用 Oracle Cloud Infrastructure AI Services

    考慮使用 OCI Data Labeling 來標示訓練資料,這些資料將用來調校並更準確地預測 Oracle Cloud Infrastructure AI Services ,例如 OCI VisionOCI Document Understanding 和 。

  • Oracle Cloud Infrastructure Generative AI 服務

    此架構可以根據部署的使用案例,運用 Oracle Cloud Infrastructure Generative AI 服務。

    • 考慮使用使用使用預先訓練 LLM 的按需遊樂場和 API 來處理文字生成、對話、資料擷取、摘要、分類、樣式轉移或語意相似性,並快速將生成式 AI 嵌入您的管線和流程中。
    • 考慮使用專用 AI 叢集,有效地調整及微調資料的基礎 LLM,以確保完全隔離和資料安全性。
    • 考慮在整個組織的不同團隊內共用託管專用 AI 叢集,以提高成本效益。單一叢集可以用來代管數個自訂模型,這些模型都可以與獨立端點搭配使用,並可使用專用 IAM 原則來保護。
  • OCI API 閘道

    此架構利用 OCI API Gateway 安全地公開資料服務,並即時推論資料取用者。

    • 您可以考慮使用 Oracle Cloud Infrastructure Functions ,最終新增執行階段邏輯,以支援不在資料處理和存取和解譯層範圍內的特定 API 處理。
    • 您可以考慮使用「使用量計畫」管理訂閱者對 API 的存取、監控及管理 API 使用量、為不同用戶設定不同的存取層,以及追蹤可提供給外部計費系統的使用狀況度量來支援資料貨幣化。
  • Oracle Cloud Infrastructure 資料目錄

    若要對平台上儲存和流動的資料進行完整且全面的端對端檢視,請考慮收集不僅支援資料持續性層的資料存放區,也支援來源資料存放區。將此收集的技術描述資料對應至業務詞彙,並使用自訂特性強化描述資料,可讓您對應業務概念,以及記錄和管理安全性和存取定義。

    • 為了協助建立虛擬化儲存在 OCI Object Storage 中之資料的 Oracle Autonomous AI Lakehouse 外部表格,請利用先前由資料目錄收集的中繼資料。這可簡化外部表格的建立、跨資料存放區強制描述資料的一致性,而且較不容易發生人為錯誤。
    • 您可以考慮使用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的歷程追蹤,以瞭解資料的擷取、轉換及儲存方式。對於增加的涵蓋範圍,使用以 API 為基礎的擷取,利用 OpenLineage 開放架構來追蹤任何來源和系統的歷程。
  • Oracle Cloud Infrastructure 資料傳輸服務

    使用公用網際網路連線上傳資料時,請使用 Oracle Cloud Infrastructure 資料傳輸 服務。若是透過公用網際網路上傳資料需要超過 1-2 週的時間,建議您考慮使用資料傳輸。

  • 資料安全與稽核

    利用稽核和警示功能提高安全性狀態,將可防止資料外洩,並在發生資料外洩時能夠進行鑑識分析。

    • 請考慮使用 Oracle Data Safe 來稽核資料倉儲中的活動,並考慮使用 Oracle Cloud Infrastructure Audit 來稽核資料湖資料的流量。
    • 您可以考慮使用 Oracle Data SafeAutonomous AI Lakehouse 上尋找機密資料,並在為非生產環境建立 Autonomous AI Lakehouse 複製時以靜態方式進行遮罩,以避免安全風險。
    • 您可以考慮將 Oracle Data Safe SQL 防火牆與 Autonomous AI Lakehouse 搭配使用,以提高資料安全狀態,防止 SQL 資料隱碼攻擊或被入侵帳戶等風險。
  • 部署與自動化

    此實體架構使用基礎架構即程式碼 (IaC) 自動化部署,以建立部署資料湖庫的資源

    Oracle Cloud Infrastructure Resource Manager 可讓您建立可部署雲端資源的 Terraform 堆疊、共用和管理基礎架構組態,以及跨多個團隊和平台發佈檔案。考慮使用 Oracle Cloud Infrastructure Resource Manager 建立非生產環境建立的部署堆疊、引入需要額外服務的新團隊,以及標準化和內嵌符合組織安全性和治理定義原則的一致 IAM 原則和安全保全。

  • 業務持續性

    此架構描述單一區域中的部署,可以擴充兩個區域以支援災害復原,以及啟用業務持續性計畫。

  • Oracle Cloud Infrastructure Full Stack Disaster Recovery 是一項災害復原協調和管理服務,可針對應用程式堆疊的所有層 (包括基礎架構、中介軟體、資料庫和應用程式) 提供全面的災害復原功能。

    您可以考慮使用 OCI Full Stack Disaster Recovery 為資料湖庫設定切換和容錯移轉計畫,以自動化災害復原任務,並在計畫性或非計畫性轉換至待命區域時減少手動步驟。

  • 成本最佳化

    考慮使用 Oracle Cloud Infrastructure 成本和使用量追蹤以及成本最佳化功能,以持續支援您的財務營運。

    • 請考慮使用成本和使用量報表來取得和追蹤雲端資源使用量和個別成本。運用產生的業界標準 FOCUS CSV 成本報告,與第三方財務營運解決方案整合。
    • 考慮使用成本分析來追蹤不同團隊、專案和環境所產生的成本。
    • 考慮使用成本追蹤標記,為特定團隊、專案或環境標記雲端資源。
    • 請考慮使用預算來設定支出寬鬆限制,並設定警示,讓您知道何時可能超出專案、團隊或整體支出的預算。
  • 互通性

    此架構利用廣泛的產業標準,與任何組織更廣的 IT 異質環境進行互通操作,因此它可以對任何應用程式、系統或人員使用及提供任何資料。

    此架構支援開放式檔案格式,例如 Parquet 或 Avro,因此資料可以針對每個使用案例以更適當的格式儲存。此外,它還支援 Iceberg 和 Delta Lake 等開放式表格格式,以確保 Oracle 技術與其他第三方技術之間的互通性。
    • 您可以考慮使用 Oracle Autonomous AI Lakehouse Iceberg 支援來讀取資料湖上保存的 Iceberg 表格,並為其提供服務給消費者。Iceberg 表格可以提供為外部表格,也可以載入至 Autonomous AI Lakehouse
    • 您可以考慮使用資料流程 Delta Lake Universal Format 支援來讀取、處理及保存資料湖中的資料。在產生 Iceberg 和 Hudi 等其他開放式表格格式的中繼資料時,使用 Delta Lake 可讓不同的處理引擎讀取相同的資料。
  • 組織方法

    此架構具有彈性,可支援不同類型的組織方法,範圍從集中式到完全分散式的方法,因此任何想要從資料中擷取價值的組織都可以採用和使用。

    此架構利用 OCI Identity and Access Management (IAM) 對認證和授權的廣泛精細控制。

    如果您的組織想要採用分散式組織方法,請考慮使用 IAM 來區隔不同的業務線和團隊,並使用湖倉一體來分散資料產品建立的所有權,並強制執行資料網域隔離。

    OCI 運用 Terraform 和 Ansible 等架構,提供自動化和基礎架構即程式碼作為成功架構部署的關鍵功能。

    如果您的組織採用分散式方法,並在該方法下實作資料網域,請考慮利用預先建立的 Terraform 範本和 OCI 資源管理程式,在資料平台中快速且一致地將資料網域上線。

注意事項

收集、處理和策劃應用程式資料以進行分析和機器學習時,請考慮下列導入選項。

指引 建議 其他選項 理由
資料轉換處理作業
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Database 資料轉型

Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。

Oracle Cloud Infrastructure GoldenGate 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的非侵入式資料複製平台,並可在混合環境中部署。

資料持續性
  • Oracle Autonomous AI Lakehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous AI Lakehouse 是一種易於使用、完全自主的資料庫,可彈性調整規模、提供快速查詢效能,並且不需要資料庫管理。它也提供從物件儲存外部或混合分割表格直接存取資料的方式。

Oracle Cloud Infrastructure Object Storage 以原始格式儲存無限資料。

數據處理
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure 大數據服務
第三方的工具

Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。

Oracle Cloud Infrastructure Data Flow 提供無伺服器 Spark 環境,以隨用隨付的極具彈性模型大規模處理資料。

Oracle Cloud Infrastructure Big Data Service 提供企業級的 Hadoop 即服務,具備端對端安全性、高效能,以及易於管理與升級。

訪問和解釋
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI 服務
第三方的工具

Oracle Analytics Cloud 完全受管理,並與 Oracle Autonomous AI Lakehouse 中的精選資料緊密整合。

Oracle Cloud Infrastructure Data Science 是一個完全受管理的自助服務平台,可供資料科學團隊在 Oracle Cloud Infrastructure 中建置、訓練及管理機器學習 (ML) 模型。Data Science Data Science 提供 AutoML 和模型部署功能等基礎架構與資料科學工具。

Oracle Machine Learning 是完全託管的自助服務平台,適用於 Oracle Autonomous AI Lakehouse ,運用倉儲的處理能力大規模建置、訓練、測試和部署 ML 模型,而無需將資料移出倉儲。

Oracle Cloud Infrastructure AI 服務是一組服務,提供專門建置和訓練的預先建置模型,以執行任務,例如推論潛在異常或偵測情緒。

部署

GitHub 中提供此參照架構的 Terraform 程式碼。只要按一下,即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager ,建立堆疊並進行部署。或者,您也可以將程式碼從 GitHub 下載至電腦、自訂程式碼,然後使用 Terraform CLI 部署架構。
  • 使用 Oracle Cloud Infrastructure Resource Manager 進行部署:
    1. 按一下 部署到 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 複查並接受條款與條件。
    3. 選取您要部署堆疊的區域。
    4. 遵循螢幕上的提示和指示來建立堆疊。
    5. 建立堆疊之後,按一下 Terraform 動作,然後選取計畫
    6. 等待工作完成,並複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。然後,再次執行計畫動作。

    7. 如果不需要進一步變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取套用
  • 使用 Terraform CLI 進行部署:
    1. 請到 GitHub
    2. 複製或下載儲存庫至您的本機電腦。
    3. 依照 README 文件中的指示進行。

確認

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

變更記錄

此日誌列出重要的變更: