規劃您的系統儲存

Oracle Cloud Infrastructure 有數種方案,可考慮在 Enterprise Data Hub 或 CDP 資料中心部署中,選擇要用於 HDFS 或其他用途的儲存。為了讓您規劃有效儲存系統,本文章探討這些選項。

瞭解裸機 NVMe 儲存體

Oracle Cloud Infrastructure 的裸機 NVMe 儲存體提供了一個快速選項,可作為 Hadoop 分散式檔案系統 (HDFS)。

此模型使用的裸機執行處理具有以本機 NVMe 為基礎的儲存體,作為 HDFS 的基礎容量。此模型是在 Oracle Cloud Infrastructure 上執行 Cloudera 的最高效能儲存選項,建議用於實際執行部署。

在裸機上部署 Cloudera 時,請考慮使用需要資料冗餘之環境的 HDFS 複製因子。當您使用裸機 NVMe 作為 HDFS 時,我們建議複製因子為 3。

瞭解區塊儲存體

Oracle Cloud Infrastructure Block Volumes 服務提供符合成本效益的方法,可安全且可靠地儲存資料,同時維護效能。

區塊儲存磁碟區的彈性設定,每個磁碟區各有 50 GB 到 32 TB,增量為 1 GB。每個執行處理最多可以連附 32 個磁碟區。

Oracle 對於區塊儲存體具有保證的 SLA,可確保區塊儲存體的 3k IOPS 和 24 MB/秒,最多可達到每一磁碟區的 25k IOPS 和 320 MB/s上限來進行平衡組態設定。Oracle 也針對區塊磁碟區以及成本選項提供高效能選項。「Oracle 資源管理程式」建置中都可以設定這兩個選項。

主機層次的區塊磁碟區傳輸量聚總,如果選擇使用區塊儲存做為 HDFS,就應該考量一些事項。如果聚總磁碟區頻寬不足,在載入期間發生 HDFS 穩定性將會相當重要。雖然這通常不會影響較小的建置,但對於具有大型 CPU 和記憶體容量的執行處理類型或大型叢集,這樣做會變得有問題。

區塊儲存體在用於 HDFS 時不會有唯一的優點。因為平台已建置冗餘,所以不一定需要針對實體冗餘執行 HDFS 複製因子 3 的需求。HDFS 可以透過區塊儲存、以 2 或 1 的複製因子執行、因此可提供效能收益、而且仍可進行冗餘複製、因為 Oracle Cloud Infrastructure 上的區塊儲存體磁碟區。資料存取仍屬於較低複製因素,但資料遺失則否。

區塊磁碟區流量對連附的執行處理使用相同 (主要) VNIC 作為儲存體流量。使用 VM 型態和區塊磁碟區作為 HDFS 時,請考慮這個事項。下表顯示使用單一主要 VNIC 時,每個 Oracle Cloud Infrastructure 資源配置之 HDFS 的建議區塊磁碟區計數大於 1 TB +磁碟區大小。

針對裸機型態,您可以在主機上啟動設定第二個實體 VNIC,將可用的頻寬靜音。目前不支援 VNIC 連結,但如果要使用 HDFS 區塊磁碟區,則這是較好的選擇。您可以利用它來區隔區塊磁碟區流量至第一個實體介面,然後在叢集流量使用第二個流量。對於裸機主機,如果您使用雙 IMAP 並將 Hadoop 叢集流量隔離至次要介面,請在前面表格中的數字按兩下。

瞭解物件儲存

Oracle Cloud Infrastructure Object Storage ("Object Storage") 可作為 HDFS 資料的遠端儲存。

因為傳輸量受限於每一繫線速率,所以我們不會針對物件儲存直接建議執行工作負載。請考慮使用 distcp 將資料從物件儲存複製到本機 HDFS 以進行處理,並將產生的資料集發送回物件儲存。物件儲存也是健全的候選復原,因為物件儲存的儲存桶中的資料可以輕易地複製到其他 Oracle Cloud Infrastructure 區域。Cloudera 叢集可以使用 Oracle Cloud Infrastructure 的 S3 相容性 API 來存取物件儲存體。