現代化的 App 開發-大數據和分析
設計原則
實行大數據和分析樣式時,請使用下列設計原則來進行現代化 App 開發。
- 使用完全受管理的服務來排除跨應用程式開發、程式實際執行和資料管理的複雜性
您的資料僅能作為您使用該資料的寶貴功能。大數據工具在開放原始碼社群中是熱門的,大部分的內部部署功能是透過開放原始碼專案 (例如 Hadoop、Spark 和 Hive) 採用。
您可以使用 Oracle Big Data Service,在 Oracle Cloud 中提供所有常用的開放原始碼 Hadoop 元件作為受管理服務。若為 Spark 應用程式,請使用 Oracle Cloud Infrastructure Data Flow (提供完整管理的無伺服器雲端原生 Spark 平台)。使用這些服務可確保您能夠利用開源社群與團隊現有技能中最新的創新,而不需考慮供應商鎖定。繼續以 Oracle 的原生溢價功能 (例如 Oracle Autonomous Data Warehouse 外部表格和 Oracle Cloud SQL ) 使用開放原始碼的速度和值。
部署及操作大數據服務 (尤其是開放原始碼元件) 可能會對營運費用產生指數影響 (OpEx)。採用 do-iturself (DIY) 方法之前,請先從我們的受管理 Hadoop 方案或 PaaS 服務 (例如資料流程) 開始進行。在 OpEx 中進行應收帳款承購時,管理的開放原始碼服務通常會比較少。
- 自動化組建、測試及部署
DataOps 對於確保您可以從大數據管線衍生最大效益非常重要。您可以使用「Oracle Cloud Infrastructure 資料整合」服務來擷取資料、實行 ETL 處理和 ELT 下推,以及建立管線以依序或平行方式連線工作來協助處理作業。管線可以在 Oracle Cloud 內部和外部包含各種常用的資料來源。使用「資料整合」排程功能來定義每個任務的執行時機與頻率。對於大數據服務中以 Hadoop 分散式檔案系統 (HDFS) 為基礎的資料湖,請使用 Oozie 和 Airflow 之類的工具來協調端對端資料管線。您可以使用 Oracle Database Cloud Service Management 來定義針對一組排程資料庫執行的資料庫工作。
- 在所有資料使用融合式資料庫搭配完整特色支援
使用可簡化、自動化及加速資料整合的最佳工具,以用於最大商業價值。以非結構化、半結構化及結構化資料建立 Oracle Cloud Infrastructure Data Science 的資料湖時,請使用物件儲存服務作為資料湖。若要運用 HDFS 和開源 Hadoop 工具,請使用「大數據服務」來建立資料湖。對於資料倉儲、部門資料市集,以及使用結構化資料提供服務和展示層,請使用針對這些案例最佳化的 Autonomous Data Warehouse。Autonomous Data Warehouse 也提供分析、商業智慧以及報表工具 (例如 Oracle Analytics Cloud ) 的連線。
- 工具端對端監督與追蹤功能
大數據 App 通常由不同的應用程式和業務團隊擁有的多項服務所組成。可觀察性工具對於取得這些現有分散式系統行為的可見性非常重要。
讓您的所有工作負載都發出狀況測量結果給 Oracle Cloud Infrastructure Monitoring,以監督端對端資料管線的作業狀況。定義警示的自訂測量結果臨界值,並在達到指定的臨界值時收到通知或採取動作。針對您租用戶中的所有 OCI 服務日誌,以及您從資料應用程式送出的自訂日誌,使用 OCI 記錄日誌。若要疑難排解問題並將效能最佳化,請使用 OCI Database Management for Autonomous Data Warehouse 來查看資料庫狀態、平均作用中階段作業、警示、CPU 使用狀況、儲存體使用狀況、快速診斷以及調校。
- 實行深度防禦方法以保護應用程式生命週期
計畫保護您的資料安全。追蹤將資料帶入及取出資料湖的所有工作、保留資料歷程描述資料,以及確保更新存取控制原則。使用「資料目錄」來協助治理。
請遵循最低權限原則,並確定使用者和服務帳戶只有執行其工作所需的最低權限。使用 Oracle Cloud Infrastructure Identity and Access Management 控制誰可以存取資料平台元件。在 Oracle Cloud Infrastructure Identity and Access Management 中使用多重因素認證,對管理員強制實行強制認證。將機密資訊 (例如密碼和認證記號) 儲存在 Oracle Cloud Infrastructure Vault 服務中。
對於大數據服務,請只設定必要的安全規則來控制網路,並使用 Apache Ranger 來管理 Hadoop 叢集的資料安全。使用 Oracle Data Safe 保護您在 Autonomous Data Warehouse 中的資料。對您的資料庫使用更安全的密碼。在專用子網路中建立資料庫資源、並使用虛擬雲端網路 (VCN) 安全群組或安全清單、強制對資料庫執行處理進行網路存取控制。將資料庫刪除權限授予最少可能的 Oracle Cloud Infrastructure Identity and Access Management 使用者和群組數目。
若要保護資料來源免於任何安全漏洞,請只提供證明資料給「資料目錄」和「資料整合」服務的唯讀帳戶。
架構

big-data-and-analytics.png 圖解描述
此架構使用下列資料來源:
- 企業應用程式
- 裝置
- 一般使用者
- 事件
- 感應器
- 任何數位資產
此架構在 VCN 中有下列元件:
- 虛擬雲端網路 (VCN)
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。VCN 就像傳統資料中心網路一樣,可讓您完整控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,供您在建立 VCN 之後變更。您可以將 VCN 區隔為子網路,子網路範圍可為區域或可用性網域。每個子網路均包含一個未與 VCN 中其他子網路重疊的連續位址範圍。您可以在建立子網路之後變更子網路的大小。子網路可以是公用或專用。
- 資料整合
Oracle Cloud Infrastructure Data Integration 是一個完全受管理且無伺服器的雲端服務擷取並轉換資料科學和分析的資料。它可使用 Oracle 的現代化無編碼資料流程設計工具,協助將複雜的 ETL 和 ELT 簡化為資料湖和倉儲。您可以使用其中一個可供使用的運算子作為結合、聚總或表示法,以形狀您的資料。
- 串流處理
Oracle Cloud Infrastructure Streaming 服務提供完全受管理、可擴展且持久的解決方案,可即時擷取及使用大量資料串流。針對持續且循序於發布/訂閱訊息模型中產生並處理資料的任何使用案例,使用串流處理。例如,訊息、測量結果和日誌擷取、Web 或行動活動資料擷取,以及基礎架構和應用程式事件處理。
- Oracle Big Data Service
Oracle Big Data Service 是一項完全受管理的自動化雲端服務,可為叢集提供 Hadoop 環境。大數據服務可讓客戶輕鬆部署所有大小的 Hadoop 叢集,並簡化使 Hadoop 叢集成為高可用性與安全的程序。
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一項針對資料倉儲工作負載最佳化的自我驅動、自我保護、自我修復資料庫服務。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。
- 物件儲存
物件儲存可讓您快速存取任何內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料以及豐富的內容 (例如影像和視訊)。您可以直接從網際網路或從雲端平台內,安全地儲存及擷取資料。您可以無縫接軌地擴展儲存體,而不會遇到任何效能或服務可靠性降低。使用標準儲存體作為快速、立即及經常存取所需的「熱」儲存體。將封存儲存用於您保留的「冷」儲存空間長期、少數或少數存取。
- 資料流程
Oracle Cloud Infrastructure Data Flow 是一個完全受管理的 PaaS 層次 Spark 分析平台,可讓您隨時建立、編輯及執行 Spark 工作,不需要叢集、作業團隊或高度專業的 Spark 知識。因為它是無伺服器基礎架構,所以您無法部署或管理基礎架構。它完全由 REST API 驅動,可讓您輕鬆地與應用程式或工作流程整合。
- Oracle Analytics Cloud
這種最佳類別的平台,適用於雲端的現代化分析,可讓您強化業務分析師與消費者。Oracle Analytics Cloud 提供現代化的 AI-powered 自助服務分析功能,可用於資料準備、尋找和視覺化;智慧型企業和隨選報告搭配增強的分析;以及自然語言處理和產生。無論您是商業分析師、資料工程師、公民資料科學家、部門管理者、網域專家或行政人員,Oracle Analytics Cloud 都能協助您將資料轉換成洞察分析。
- 分析、ML 和自訂 App
分析服務、Oracle Machine Learning 以及將編製目錄、準備、處理及分析大數據的自訂應用程式。
- 資料目錄
Oracle Cloud Infrastructure Data Catalog 是針對企業資料提供完整管理的自助服務資料尋找和治理解決方案。它提供資料工程師、資料科學家、資料管理員以及首席資料主管單一協作環境,以管理組織的技術、商業和作業中繼資料。
您可以使用此架構樣式,以現代化的資料湖樣式管理所有類型的非結構化、半結構化以及非結構化資料。使用資料整合與串流服務,將所有類型的資料擷取至以物件儲存為基礎的資料湖。使用 Oracle Cloud Infrastructure Data Flow 和 Oracle Big Data Service 進行處理、使用 Oracle Cloud Infrastructure Data Catalog 編入目錄、使用 Oracle Autonomous Data Warehouse 作為服務存放區,以及使用 Oracle Analytics Cloud 進行分析和商業智慧。
下列程序說明圖表中顯示的流程:
- Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure 串流處理會從不同類型的來源擷取資料。使用的服務取決於資料是批次、串流或同步資料庫記錄,以及資料是內部部署還是雲端。
- 資料可傳遞至物件儲存供雲端服務共用存取,並在儲存至 Oracle Autonomous Data Warehouse 或 Big Data Service 之前進行處理。
- 資料也可以直接傳遞至 Oracle Autonomous Data Warehouse,然後使用 ELT 功能進行轉換,或者直接擷取其他資料庫的記錄。您也可以直接將資料傳遞至大數據服務。
- Oracle Autonomous Data Warehouse 可從物件儲存查詢資料,或透過 API 或藉由資料整合來從物件儲存擷取資料。大數據服務可以擷取物件儲存體中的資料或查詢物件儲存體中的資料。
- Oracle Analytics Cloud 可以存取 Oracle Autonomous Data Warehouse 中的資料,以取得服務提供的任何視覺化和商業分析功能。
- Oracle Cloud Infrastructure Data Catalog 會從 Oracle Autonomous Data Warehouse、Object Storage 以及 Big Data Service Hive 資料來源收集描述資料。您可以與「資料目錄」互動,以收集、尋找和管理資料。
- 您可以使用 Oracle Autonomous Data Warehouse、Big Data Service 以及 Object Storage 的資料,針對分析和機器學習工作負載實行任何自訂 App。
- 商業分析人員可以使用 Oracle Analytics Cloud 來使用 Oracle Autonomous Data Warehouse 與 Big Data Service 的資料。
- 資料科學家可以在 Oracle Big Data Service 的 Oracle Autonomous Data Warehouse 和 Oracle Machine Learning for Spark 中使用 Oracle Machine Learning Notebooks 來訓練機器學習模型,以及使用空間和圖表資料。
替代架構
請考量此樣式中描述之架構的替代方法。
使用單一資料庫或資料倉儲來儲存和分析所有類型的資料。在此替代架構中,各種資料來源 (一般使用者、裝置、事件、感應器和應用程式) 會透過資料整合 ( Oracle GoldenGate ) 和 Oracle Transactional Event Queue,將資料傳送至資料庫。資料會與使用雲端 SQL 支援大數據的物件存放區一起儲存在 Oracle Autonomous Database ( Oracle Autonomous Transaction Processing 和 Oracle Autonomous Data Warehouse ) 中。使用 Oracle Machine Learning 建立及部署模型,並使用 Oracle Analytics Cloud 和 Oracle Data Cloud 深入瞭解資料。
下圖說明此替代架構。

alt-architecture-big-data.png 圖解描述
此架構使用下列資料來源:
- 企業應用程式
- 裝置
- 一般使用者
- 事件
- 感應器
- 任何數位資產
此架構在 VCN 中有下列元件:
- 虛擬雲端網路 (VCN)
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。VCN 就像傳統資料中心網路一樣,可讓您完整控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,供您在建立 VCN 之後變更。您可以將 VCN 區隔為子網路,子網路範圍可為區域或可用性網域。每個子網路均包含一個未與 VCN 中其他子網路重疊的連續位址範圍。您可以在建立子網路之後變更子網路的大小。子網路可以是公用或專用。
- 資料整合
Oracle Cloud Infrastructure Data Integration 是一個完全受管理且無伺服器的雲端服務擷取並轉換資料科學和分析的資料。它可使用 Oracle 的現代化無編碼資料流程設計工具,協助將複雜的 ETL 和 ELT 簡化為資料湖和倉儲。您可以使用其中一個可供使用的運算子作為結合、聚總或表示法,以形狀您的資料。
- ADB 中的 Oracle Cloud Infrastructure Transactional Event Queue (TEQ)
自發式資料庫中的 Oracle Transactional Event Queue 提供資料庫整合的訊息佇列功能。這個高度最佳化和分割的實行會利用 Oracle 資料庫的功能,讓產生器和用戶能夠透過將訊息永久儲存在不同的資料庫上,在佇列之間交換高傳輸量的訊息。「Oracle 交易事件佇列」是一個高效能分割的實行,每一佇列有多個事件串流
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一項針對資料倉儲工作負載最佳化的自我驅動、自我保護、自我修復資料庫服務。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。
此雲端資料倉儲服務可排除操作資料倉儲、保護資料及開發資料導向應用程式的所有複雜性。它會將啟動設定、設定、保護、調整、擴展以及備份資料倉儲自動化。其中包括自助服務資料載入、資料轉換、商業模型、自動洞察分析和內建的融合式資料庫功能,可簡化跨多種資料類型和機器學習分析的查詢。
- 物件儲存
物件儲存可讓您快速存取任何內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料以及豐富的內容 (例如影像和視訊)。您可以直接從網際網路或從雲端平台內,安全地儲存及擷取資料。您可以無縫接軌地擴展儲存體,而不會遇到任何效能或服務可靠性降低。使用標準儲存體作為快速、立即及經常存取所需的「熱」儲存體。將封存儲存用於您保留的「冷」儲存空間長期、少數或少數存取。
此網際網路式高效能儲存平台提供可靠且高效率的資料持久性。物件儲存服務可以儲存不限數量的任何內容類型的非結構化資料,包括分析資料和豐富內容 (例如影像和視訊)。
- 自治式資料庫
Oracle Cloud Infrastructure 自治式資料庫是完全管理且預先設定的資料庫環境,可用於交易處理和資料倉儲工作負載。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。
- 自治式資料庫中的 Oracle Machine Learning
Oracle Autonomous Database 中的 Oracle Machine Learning (自治式異動處理和 Autonomous Data Warehouse)。
- Oracle Analytics Cloud
這種最佳類別的平台,適用於雲端的現代化分析,可讓您強化業務分析師與消費者。Oracle Analytics Cloud 提供現代化的 AI-powered 自助服務分析功能,可用於資料準備、尋找和視覺化;智慧型企業和隨選報告搭配增強的分析;以及自然語言處理和產生。無論您是商業分析師、資料工程師、公民資料科學家、部門管理者、網域專家或行政人員,Oracle Analytics Cloud 都能協助您將資料轉換成洞察分析。
- 分析、ML 和自訂 App
分析服務、Oracle Machine Learning 以及將編製目錄、準備、處理及分析大數據的自訂應用程式。
- 資料目錄
Oracle Cloud Infrastructure Data Catalog 是針對企業資料提供完整管理的自助服務資料尋找和治理解決方案。它提供資料工程師、資料科學家、資料管理員以及首席資料主管單一協作環境,以管理組織的技術、商業和作業中繼資料。
Oracle Cloud Infrastructure Data Catalog 是一項描述資料管理服務,可協助資料專業人員尋找資料並支援資料治理。
- Oracle GoldenGate
此完全受管理的服務提供即時、以日誌為基礎的變更資料擷取 (CDC) 和複製軟體平台,以符合今天的交易導向應用程式需求。此軟體提供在異質環境之間即時擷取、路由、轉換和傳遞異動資料。
另一種替代方法是在 Oracle Cloud Infrastructure Compute 上建置並執行您自己的開源平台。不過,此選項可能會導致高 OpEx。
考量和反面樣式
大數據和分析請考量下列事項。
- 減少資料複本和移動
資料移動相當耗費、耗用資源與時間,並且可以減少資料保真度。根據資料類型、資料品質以及必要的轉換,選擇正確的服務來儲存及處理您的資料。將物件儲存用於所有類型原始資料的資料湖儲存體。使用 Oracle Big Data Service 運用 HDFS 和 Hadoop 生態系統工具。使用 Oracle Autonomous Data Warehouse 來儲存簡報的轉換資料。使用右側存放區可協助您避免複製與移動資料,並減少重複的資料複本,這可能會難以維護與保持同步。
- 提供使用者所需的資料介面
企業資料與分析平台有許多類型的使用者:資料工程師、資料分析師、應用程式開發人員、大數據工程師、資料庫管理員、商業分析人員、資料科學家、資料管理員以及其他用戶。它們全都有不同的需求與偏好設定來使用資料。瞭解您的所有使用案例和資料用戶需求非常重要。對於 Hadoop 生態系統工具,請使用「大數據」。對於 SQL 查詢和商業智慧工具連接,請使用 Autonomous Data Warehouse。對於 Spark 應用程式,請使用 Oracle Cloud Infrastructure Data Flow 服務。
- 編製資料資產目錄並建立常見的字彙
企業中的資料通常是跨多個團隊分享的資產。您可以使用「資料目錄」從 OCI 和內部部署的資料來源收集描述資料,以建立資料資產的產品目錄。這樣做可協助資料用戶輕鬆找到分析所需的資料。您也可以使用「資料目錄」建立及管理具有類別、子類別和商業詞彙的企業詞彙,以使用者新增的標記建立商業概念的分類,讓搜尋更具生產力。
- 作為成本和效能實用
除非已正確設計並運作平台,否則資料與分析平台的成本會快速提升。所有資料都有與延遲和傳輸量相關的特定效能需求。使用最小的運算資源配置以及服務中仍然符合效能需求的最少儲存體大小,來調整環境的大小。終止任何未使用的資源。使用 Spark App 的資料流程,因為您可以選擇要用於工作的核心數目,這可讓您在成本降到最低時獲得所需的效能。對於 Autonomous Data Warehouse,請根據您的需求調整 CPU 核心數目或資料庫的儲存容量。也可以使用其自動調整功能,讓資料庫隨時自動使用最多三倍的 CPU 核心數目,並在不需要時自動減少核心數目。
反面樣式
設計實行時,請考慮下列事項:
- 缺少資料編目和治理可以將資料湖轉換成資料樣板。
- 將資料湖資料儲存在區塊磁碟區而非物件儲存中,會導致較高成本的解決方案。
大數據和分析樣式
此架構樣式提供如何使用 Oracle Cloud Infrastructure (OCI) 資料與分析服務來擷取、儲存、目錄、準備、處理及分析大數據以實行數種使用案例的指引。
這些使用案例包括資料倉儲;分析、商業智慧和報告;擷取、轉換和載入 (ETL),以及擷取、載入和轉換 (ELT) 樣式;資料湖和湖門樣式;以及訓練機器學習模型。
下圖顯示與資料及分析相關的 Oracle 服務。

big-data-and-analytics-pattern.png 圖解描述
- 您可以使用 Oracle Autonomous Data Warehouse 來撰寫結構化資料的 SQL 查詢,以及透過非結構化和半結構化資料的外部表格。
- 您可以使用 Oracle Big Data Service 來使用 Apache Hadoop 生態系統工具 (例如 Hive、Spark、Kafka 和 HBase) 擷取、儲存及處理所有類型的非結構化和半結構化資料。
- 使用 Oracle Cloud Infrastructure Object Storage 來儲存大數據,並為所有類型的資料建立資料湖。
- 針對 Apache Spark 原生工作使用 Oracle Cloud Infrastructure Data Flow。
- 使用 Oracle Cloud Infrastructure 資料整合,從各種資料來源擷取資料,以及簡化 ETL (擷取、轉換、載入) 和 ELT (擷取、載入、轉換) 處理。
- 您可以使用「Oracle Cloud Infrastructure 資料目錄」從各種資料來源收集描述資料、以建立資產產品目錄、商業詞彙、以及資料湖的通用描述資料存放區。
- 使用串流來擷取 Kafka-compatible API 的即時資料串流。
使用案例範例
下列是使用 Oracle Cloud Infrastructure (OCI) 資料與分析服務來擷取、儲存、目錄、準備、處理及分析大數據的實行範例。
- Data Warehousing 與 Business Analytics
使用 Oracle Autonomous Data Warehouse 作為 Oracle Analytics Cloud 的資料倉儲或資料市集。
- 資料整合會從預期的來源擷取資料。使用的資料整合類型取決於資料是批次、串流或同步資料庫記錄,以及資料是內部部署還是雲端。
- 資料可傳遞至物件儲存供雲端服務共用存取,並在儲存至 Autonomous Data Warehouse 或 Big Data 之前進行處理。資料也可以直接傳遞至 Autonomous Data Warehouse,然後使用 ELT 功能進行轉換,或者直接擷取其他資料庫的記錄。
- Oracle Analytics Cloud 提供資料庫中資料的視覺化,包括機器學習結果。Oracle Analytics Cloud 會儘可能向 Autonomous Data Warehouse 發送處理以進行資料流程處理。
- 對於作用中封存或資料共用,物件儲存是選擇性的。作用中存檔是將較不常用的資料從 ADW 移至成本較低的儲存層 (物件儲存) 的位置。資料仍可從物件儲存查詢,但效能較慢。物件儲存也可用來儲存雲端服務之間共用的資料。
- Oracle Cloud Infrastructure Data Catalog 會從 Autonomous Data Warehouse 和物件儲存資料來源收集描述資料。您可以與「資料目錄」互動,以使用及管理目錄。
- 使用湖住宅模式的資料湖與資料倉儲來管理所有類型的資料
同時管理 Autonomous Data Warehouse 和大數據中的資料,並使用 Oracle Analytics Cloud 視覺化資料。
- 資料整合會從預期的來源擷取資料。使用的資料整合類型取決於資料是批次、串流或同步資料庫記錄,以及資料是內部部署還是雲端。
- 資料可傳遞至物件儲存供雲端服務共用存取,並在儲存至 Autonomous Data Warehouse 或 Oracle Big Data Service 之前進行處理。資料也可以直接傳遞至 Autonomous Data Warehouse,然後使用 ELT 功能進行轉換,或者直接擷取其他資料庫的記錄。資料也可以直接傳遞至大數據。
- Autonomous Data Warehouse 可以透過 API 或 Oracle Cloud Infrastructure Data Integration 的協助,從物件儲存查詢資料或從物件儲存擷取資料。大數據可以擷取物件儲存中的資料或查詢物件儲存中的資料。
- 您可以使用大數據連線器,將資料從大數據傳輸至 Autonomous Data Warehouse。
- Oracle Analytics Cloud 可以從多個來源 (包括 Autonomous Data Warehouse 和大數據) 存取資料,以提供增強的分析、資料視覺化以及自助服務業務分析功能。
- 商業分析人員可以使用 Oracle Analytics Cloud 來使用 Autonomous Data Warehouse 和大數據的資料。
- 資料目錄會從 Autonomous Data Warehouse、物件儲存和大數據 Hive 資料來源收集描述資料。您可以與「資料目錄」互動,以收集、尋找和管理資料。
- 使用 OCI 雲端原生服務建置資料湖
在物件儲存中建立資料湖,並使用雲端原生資料與 AI 服務來現代化並運用最新的技術創新。
- 針對 Spark 批次處理作業和臨時 Spark 叢集使用資料流程。
- 使用物件儲存搭配 Hadoop 分散式檔案系統 (HDFS) 連線器作為 HDFS 存放區,取代 Apache Hadoop 或 Spark 叢集內的 HDFS。
- 您可以使用 Oracle Cloud Infrastructure Data Integration 來擷取資料和 ETL 工作。
- 使用 Oracle Cloud Infrastructure 資料目錄進行資料尋找和治理。
- 使用 Oracle Cloud Infrastructure Data Science 來滿足機器學習需求。
- 針對串流的受管理擷取使用 Oracle Cloud Infrastructure Streaming,並針對受管理的整合服務使用資料整合。這些服務可能會取代自行管理的 Kafka 或 Flume。
- 對於堆疊中無法輕鬆使用受管理 OCI 原生服務的其餘元件,請使用 Oracle Cloud Infrastructure Compute 和儲存服務。
- 使用 Oracle Big Data Service 建立 HDFS 型資料湖流
使用 Oracle Big Data Service 在 HDFS 中建立您的資料湖。所有 Apache Hadoop 元件 (包括 Hive、HBase、Spark 和 Oozie) 均可供 Oracle Big Data Service 提供的受管理 Hadoop 叢集使用,您可以根據需求加以使用。儘可能使用受管理雲端原生服務。
- 針對 HDFS 和其他 Hadoop 元件 (包括 Hive、HBase 以及 Oozie) 使用大數據。
- 針對 Spark 批次處理作業和臨時 Spark 叢集使用的資料流程,盡可能減少大數據叢集大小。
- 使用「資料目錄」進行資料尋找與管控。
- 針對機器學習需求使用資料科學。
- 使用 Oracle Big Data Service 的資料實驗室
瀏覽和實驗資料。Oracle Big Data Service 在此使用案例中提供核心資料管理和資料科學工具。
- Oracle Analytics Cloud 提供額外的功能來視覺化對於瞭解來源資料和機器學習結果非常有用的資料。
- 物件儲存提供額外的低成本儲存體,可在資料實驗室暫停時與其他雲端服務共用資料,以及在 Oracle Big Data 中保存資料。
- 您可以視需要新增資料整合,以將資料擷取至物件儲存。
- 資料目錄會從物件儲存和大數據 Hive 收集描述資料。您可以與「資料目錄」互動,以使用及管理目錄。
- 資料科學家在 Oracle Big Data 中使用 Oracle Machine Learning for Spark 來建立機器學習模型。
- 使用 Oracle Cloud Infrastructure Data Catalog 尋找及管理自行服務資料
「資料目錄」會從不同類型的資料來源收集描述資料,以建立資料實體及其屬性的目錄。商業分析人員、資料科學家、資料工程師以及資料管理員可以搜尋目錄並建立商業詞彙的屬性。
- 使用 Oracle Cloud Infrastructure Data Flow 處理 Spark
Spark 工作會送出至資料流程。當工作執行時,會從物件儲存讀取資料並根據工作代碼進行處理,然後將結果寫回物件儲存。其他服務則可視需要從物件儲存擷取結果。
- 直接在 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 中訓練機器學習模型
請參閱以資料科學為基礎的機器學習模型,瞭解使用「Oracle Cloud Infrastructure 資料科學」訓練機器學習模型的詳細資訊。此使用案例的目標是管理 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 中的資料。Oracle Analytics Cloud 提供資料視覺化,包括機器學習結果。功能僅限於 Oracle Machine Learning 的功能。
-
Oracle Cloud Infrastructure 資料整合會從預期的來源擷取資料。使用的資料整合類型取決於資料是批次、串流或同步資料庫記錄,以及資料是內部部署還是雲端。
- 資料可傳遞至物件儲存供雲端服務共用存取,並在儲存至 Oracle Autonomous Data Warehouse 或 Oracle Big Data Service 之前進行處理。資料可以直接傳遞至 Oracle Autonomous Data Warehouse,然後使用 ELT 功能進行轉換,或者直接擷取其他資料庫的記錄。資料也可以直接傳遞至 Oracle Big Data Service。
- Oracle Autonomous Data Warehouse 可從物件儲存查詢資料,或透過 API 或藉由資料整合來從物件儲存擷取資料。Oracle Big Data Service 可以擷取物件儲存中的資料或查詢物件儲存中的資料。
- 您可以使用大數據連線器,將資料從 Oracle Big Data Service 傳輸至 Oracle Autonomous Data Warehouse。
- Oracle Analytics Cloud 可以從多個來源 (包括 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service ) 存取資料,以提供增強的分析、資料視覺化以及自助服務業務分析功能。
- 商業分析人員和資料科學人員可以使用 Oracle Analytics Cloud 來使用 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 的資料。
- 資料科學家可以在 Oracle Autonomous Data Warehouse 中使用 Oracle Machine Learning Notebooks 來建立機器學習模型,以及使用空間資料。他們也可以在大數據中使用 Oracle Machine Learning for Spark 來建立機器學習模型,以及使用空間和圖表資料。
- Oracle Cloud Infrastructure Data Catalog 會從 Oracle Autonomous Data Warehouse、Big Data Hive 以及物件儲存資料來源收集描述資料。您可以與「資料目錄」互動,以使用及管理目錄。
-