資料移轉選項

Oracle 提供數種可用來移轉 HDFS 資料、使用 Oracle 資料傳輸設備進行大量資料移轉,以及叢集中繼資料移轉的選項。

HDFS 移轉

您可以使用幾種不同的方式將外部 HDFS 的資料移轉至Oracle Cloud Infrastructure

主要考量指的是需要移動多少資料,以及在指定移動資料時需要移動資料的時間和資源時,是否將資料移到電匯。如果頻寬足夠且來源叢集資源可支援此功能,有兩個選項可以選擇:

  • DistCp 與 Object Storage
  • DistCp 至 HDFS

對於物件儲存體複本,只有來源叢集需要網際網路連線,以及 HDFS Connector (Apache Hadoop) 或 S3 相容性設定 (Cloudera 和 Hortonworks)。如果使用 S3 相容性,只能將資料複製到租用戶的本位目錄區域中。

就緒先決條件之後,您可以透過針對來源 HDFS 目標執行 DistCp,將資料傳輸至物件儲存的儲存桶。下列語法示範將副本複製到「美國東部 (Ashburn)」區域物件儲存 (以正確的值取代變數):

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

相反地,可以切換 HDFS 目標和 S3 目標,將資料從物件儲存複製到 HDFS。此方法適用於 Cloudera、Hortonworks 以及 Apache Hadoop。

第二個選項是在Oracle Cloud Infrastructure中建立 Hadoop 叢集、確定來源叢集與Oracle Cloud Infrastructure 叢集具有連線性,以及在叢集之間執行 DistCp。此方法也適用於 Apache Hadoop、Cloudera 以及 Hortonworks。

對於 MapR 叢集,您可以設定叢集之間的磁碟區遠端鏡射來移轉資料。

資料傳輸設備

Oracle Data Transfer Appliance 是將資料移至線上時,資料傳輸適用的另一個選項。

頻寬或資源限制條件可能存在於來源叢集中,或與Oracle Cloud Infrastructure 區域相鄰,可能會限制 FastConnect 可用性。資料集可能也會變得太長,因此需要進行複製。在這些情況下,Oracle 可以傳送資料傳輸設備給您,供您在資料中心建置並作為 HDFS 資料的 DistCp 目標使用。

叢集描述資料移轉

將叢集描述資料移轉至Oracle Cloud Infrastructure 的方法會隨 Cloudera、Hortonworks、MapR 以及 Apache 而改變。

Cloudera

如果是 Cloudera 叢集,叢集描述資料支援三種類型的資料庫:Postgres、MySQL 以及 Oracle。

備份「Cloudera Manager 資料庫」的步驟包括在 Cloudera Enterprise 文件中。接著,您就可以將此資料匯入Oracle Cloud Infrastructure上執行 Cloudera 的叢集。

Hortonworks

如果啟用 Hortononworks,支援的資料庫與 Cloudera 相同。對於 Ambari,您可以從現有的叢集匯出藍圖,然後用它來設定Oracle Cloud Infrastructure Hortonworks 建置。

MapR

按照 MapR備份 MapR 文件的最佳做法中的步驟進行。接著,您就可以將此資料匯入 Oracle Cloud Infrastructure MapR 叢集中。

Apache

如果是 Apache Hadoop,系統會使用與 Ambari、Hive 以及 HBase 相同的程序來支援相同的資料庫 (例如 Cloudera 和 Hortonworks)。