瞭解 Hadoop 型資料湖

Oracle Big Data Service 提供一個 Hadoop 堆疊,包括 Apache Ambari、Apache Hadoop、Apache HBase、Apache Hive、Apache Spark 和其他服務可用來處理及保護大數據。

大數據服務讓企業輕鬆將工作負載搬移至雲端,並確保與企業內部部署解決方案相容。它能夠將資料搬移至物件儲存,以節省成本,並將運算資源與儲存脫鉤。您可以使用 OCI 主控台、OCI CLI、REST API 或 SDK 存取 BDS。您可以完整存取,以便客製化 BDS 叢集上部署的內容。

Oracle Cloud SQL 是可用的附加服務,可讓您起始 HDFS、Kafka 和 Object Storage 中資料的 Oracle SQL 查詢。任何使用者、應用程式或分析工具都可以搭配資料存放區使用,將資料移動最小化並加速查詢。BDS 可搭配資料整合、資料科學及其他分析服務運作。開發人員可以使用 Oracle SQL 存取資料。企業可以免除資料壁壘,確保資料湖不會與其他公司資料來源隔離。

關於資料湖庫

Oracle Lakehouse 樣式結合了資料倉儲和資料湖的最佳元素。它提供了多個 Oracle 雲端服務的整合式平台,可與輕鬆移動資料、統一治理功能,並且提供根據使用案例和偏好設定,使用最佳開源和商業工具的功能。

data-lake-house.png 的描述如下
data-lake-house.png 圖解的描述

Oracle Lakehouse 樣式的主要元素包括

  • 整合資料倉儲和資料湖模式。
  • 資料消滅 - 輕鬆移動倉儲和湖泊之間的資料。
  • 整合的描述資料和治理。
  • 支援熱門的開源和商業工具。
  • 支援各種資料來源、資料格式和資料類型 (結構化、半結構化和非結構化)
  • 支援各種資料用戶和負載,包括所有產業的大數據分析、SQL 和 BI、資料科學及機器學習。

此播放簿中使用的平台主要服務包括:

大數據

Oracle Big Data 為 Hadoop 環境提供叢集。大數據簡化了讓 Hadoop 叢集提升高可用性和安全性的流程。大數據不僅實作高可用性與安全性,也降低進階 Hadoop 技能的需求。大數據提供常用的 Hadoop 元件,讓企業輕鬆將工作負載搬移至雲端,並確保與企業內部部署解決方案相容。

資料目錄

Oracle Cloud Infrastructure 資料目錄是企業資料完全受管理、自助服務資料探索及治理解決方案。「資料目錄」對組織搜尋及尋找要分析的資料而言非常重要。它們可協助資料專業人員探索資料和支援資料治理。

使用「資料目錄」作為單一協同合作環境,管理技術、業務及營運描述資料。您可以從使用公用或專用 IP 位址存取的各種支援資料來源收集技術描述資料。您可以組織、尋找、存取、瞭解、強化及啟用此描述資料。利用依需求或以排程為基礎的自動收集,確保資料目錄永遠具有最新資訊。受益於 Oracle Cloud 的所有安全性、可靠性、效能及規模。

資料流程

Oracle Cloud Infrastructure Data Flow 是完全託管的服務,用以執行 Apache Spark 應用系統。資料流程應用系統包含 Spark 應用程式、其相依性、預設參數以及預設程式實際執行資源規格,可重複使用的樣板。您可以透過 API 閘道和可用功能,使用 REST API 管理資料流程和應用程式開發週期的所有層面,並透過 API 追蹤及執行 Apache Spark 工作。

資料流程讓開發者專注於開發應用程式,可快速完成應用程式交付。它提供日誌管理和執行應用程式的執行環境。您可以透過使用者介面整合應用系統和工作流程及存取 API。無須設定基礎架構、叢集佈建、軟體安裝、儲存及安全性。

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse 是一款自我驅動、自我保護且自我修復的資料庫服務,針對資料倉儲負載最佳化。您不需要設定或管理任何硬體,也不需要安裝任何軟體。Oracle Cloud Infrastructure 會負責建立資料庫,以及備份、打補丁、升級及調整資料庫。

資料整合

Oracle Cloud Infrastructure Data Integration 是一個完全託管、無伺服器雲端服務,可擷取及轉換資料科學及分析的資料。資料整合可幫助您簡化複雜的資料擷取、轉換,並將流程 (ETL/E-LT) 載入資料湖和倉儲,以使用 Oracle 的資料流程設計工具進行資料科學和分析。它運用以規則為基礎的整合流程提供自動化綱要差異保護,協助您避免因資料綱要的發展而混亂的整合流程,並減少維護工作。

資料科學

Oracle Cloud Infrastructure Data Science 是一個完全受管理且無伺服器平台,讓資料分析師在 Oracle Cloud Infrastructure 建立、訓練、部署及管理機器學習模型。資料分析師可以使用 Oracle 提升自動化機器學習 (AutoML)、模型評估及模型說明的 Oracle 加速資料科學 (ADS) 程式庫。

分析

Oracle Analytics Cloud 是可擴展且安全的公有雲服務,提供一組完整的功能,為您、您的工作群組和組織提供協同合作分析。此外,Oracle Analytics Cloud 也具備彈性的服務管理功能,包括快速設定、輕鬆調整規模和打補丁,以及自動化生命週期管理。