資料移轉選項
Oracle 提供數種可用來移轉 HDFS 資料、使用 Oracle 資料傳輸設備進行大量資料移轉,以及叢集中繼資料移轉的選項。
資料移轉準則
在您決定資料需要移動的功能以及如何在 Oracle Cloud Infrastructure 中結構化後,請決定用來將資料從目前位置移至 Oracle Cloud Infrastructure 的方法。此處理作業的重要元件是 Oracle Cloud Infrastructure 連線。傳輸量取決於連線大小。
Oracle Cloud Infrastructure 支援多層次的連線。連線範圍可從 10 Mbps 到 10 Gbps。納入資料集和連線傳輸量的大小、資料移轉可能像直接複本一樣簡單,或者需要特殊設備 (例如資料傳輸服務) 來移動資料。
| 近似資料上傳時間 | |||||
|---|---|---|---|---|---|
| 資料集大小 | 10Mbps | 100Mbps | 1 Gbps | 10 Gbps | 資料傳輸服務 |
| 10 TB | 92 天 | 9 天 | 22 小時 | 2 小時 | 1 週 |
| 100 TB | 1,018 天 | 101 天 | 10 天 | 24 小時 | 1 週 |
| 500 TB | 5,092 天 | 509 天 | 50 天 | 5 天 | 1 週 |
| 1 PB | 10,185 天 | 1,018 天 | 101 天 | 10 天 | 2 週 |
資料傳輸服務
- 以磁碟為基礎的資料傳輸-您以加密之商品磁碟上的檔案形式,將您的資料傳送至 Oracle 傳輸網站。Oracle 傳輸網站的運算子可將檔案上傳至您租用戶的指定物件儲存或封存儲存的儲存桶。
- 以設備為基礎的資料傳輸-您可以在 Oracle 傳輸網站上安全、高容量、Oracle 提供的儲存設備上,將資料以檔案方式傳送。Oracle 傳輸網站的運算子可將資料上傳至您租用戶的指定物件儲存或封存儲存的儲存桶。
HDFS 移轉
您可以使用幾種不同的方式將外部 HDFS 的資料移轉至 Oracle Cloud Infrastructure。
主要考量指的是需要移動多少資料,以及在指定移動資料時需要移動資料的時間和資源時,是否將資料移到電匯。如果頻寬足夠且來源叢集資源可支援此功能,有兩個選項可以選擇:
- DistCp 與 Object Storage
- DistCp 至 HDFS
對於物件儲存體複本,只有來源叢集需要網際網路連線,以及 HDFS Connector (Apache Hadoop) 或 S3 相容性設定 (Cloudera 和 Hortonworks)。如果使用 S3 相容性,只能將資料複製到租用戶的本位目錄區域中。
就緒先決條件之後,您可以透過針對來源 HDFS 目標執行 DistCp,將資料傳輸至物件儲存的儲存桶。下列語法示範將副本複製到「美國東部 (Ashburn)」區域物件儲存 (以正確的值取代變數):
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 相反地,可以切換 HDFS 目標和 S3 目標,將資料從物件儲存複製到 HDFS。此方法適用於 Cloudera、Hortonworks 以及 Apache Hadoop。
第二個選項是在 Oracle Cloud Infrastructure 中建立 Hadoop 叢集、確定來源叢集與 Oracle Cloud Infrastructure 叢集具有連線性,以及在叢集之間執行 DistCp。此方法也適用於 Apache Hadoop、Cloudera 以及 Hortonworks。
對於 MapR 叢集,您可以設定叢集之間的磁碟區遠端鏡射來移轉資料。
資料傳輸設備
Oracle Data Transfer Appliance 是將資料移至線上時,資料傳輸適用的另一個選項。
頻寬或資源限制條件可能存在於來源叢集中,或與 Oracle Cloud Infrastructure 區域相鄰,可能會限制 FastConnect 可用性。資料集可能也會變得太長,因此需要進行複製。在這些情況下,Oracle 可以傳送資料傳輸設備給您,供您在資料中心建置並作為 HDFS 資料的 DistCp 目標使用。
叢集描述資料移轉
將叢集描述資料移轉至 Oracle Cloud Infrastructure 的方法會隨 Cloudera、Hortonworks、MapR 以及 Apache 而改變。
Cloudera
如果是 Cloudera 叢集,叢集描述資料支援三種類型的資料庫:Postgres、MySQL 以及 Oracle。
備份「Cloudera Manager 資料庫」的步驟包括在 Cloudera Enterprise 文件中。接著,您就可以將此資料匯入 Oracle Cloud Infrastructure 上執行 Cloudera 的叢集。
Hortonworks
如果啟用 Hortononworks,支援的資料庫與 Cloudera 相同。對於 Ambari,您可以從現有的叢集匯出藍圖,然後用它來設定 Oracle Cloud Infrastructure Hortonworks 建置。
MapR
按照 MapR 備份 MapR 文件的最佳做法中的步驟進行。接著,您就可以將此資料匯入 Oracle Cloud Infrastructure MapR 叢集中。
Apache
如果是 Apache Hadoop,系統會使用與 Ambari、Hive 以及 HBase 相同的程序來支援相同的資料庫 (例如 Cloudera 和 Hortonworks)。