Datenmigrationsoptionen

HDFS-Migration

Sie können Daten aus einer externen HDFS auf verschiedene Arten in Oracle Cloud Infrastructure migrieren.

In erster Linie wird davon ausgegangen, wie viele Daten verschoben werden müssen und ob die Daten "über das Drahtmodell" verschoben werden müssen, wobei die Zeit und Ressourcen, die für das Verschieben der Daten erforderlich wären. Wenn ausreichend Bandbreite und Quell-Cluster-Ressourcen zur Unterstützung vorhanden sind, sind zwei Optionen relevant:

DistCp in Object Storage
DistCp zu HDFS

Für Object Storage-Kopien benötigt nur das Quell-Cluster Internetkonnektivität, entweder das Setup HDFS Connector (Apache Hadoop) oder die S3-Kompatibilität (Cloudera und Hortonworks). Wenn Sie die S3-Kompatibilität verwenden, können Daten nur in die Home-Region des Mandanten kopiert werden.

Nachdem die Voraussetzungen erfüllt sind, übertragen Sie Daten, indem Sie DistCp für ein Quell-HDFS-Ziel in einen Object Storage-Bucket ausführen. Die folgende Syntax demonstriert eine Kopie in die Region "US East (Ashburn)" Object Storage (ersetzt die Variablen durch Ihre richtigen Werte):

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/

Umgekehrt können das HDFS-Ziel und das S3-Ziel wechseln, um Daten aus Object Storage in HDFS zu kopieren. Diese Methode funktioniert für Cloudera, Hortonworks und Apache Hadoop.

Die zweite Option besteht darin, ein Hadoop-Cluster in Oracle Cloud Infrastructure aufzubauen, sicherzustellen, dass das Quellcluster und das Oracle Cloud Infrastructure-Cluster die Konnektivität aufweisen, und DistCp zwischen den Clustern ausführen. Diese Lösung funktioniert auch für Apache Hadoop, Cloudera und Hortonworks.

Bei MapR-Clustern migrieren Sie Daten, indem Sie die Remote-Spiegelung von Datenträgern zwischen Clustern einrichten.

Data Transfer Appliance

Oracle Data Transfer Appliance ist eine andere Option für die Datenübertragung, wenn das Verschieben von Daten über das Wire nicht möglich ist.

Bandbreite oder Ressourcen-Constraints können im Quell-Cluster vorhanden sein, oder Näherung an eine Oracle Cloud Infrastructure-Region könnte die Verfügbarkeit von FastConnect begrenzen. Das Dataset könnte auch so groß sein, dass es zu lange für das Kopieren benötigt. In diesen Fällen kann Oracle Ihnen eine Data Transfer Appliance senden, die Sie in Ihrem Data Center bereitstellen und als DistCp-Ziel für HDFS-Daten verwenden können.

Clustermetadatenmigration

Die Lösung für die Migration von Clustermetadaten zu Oracle Cloud Infrastructure variiert zwischen Cloudera, Hortonworks, MapR und Apache.

Cloudera

Bei Cloudera Clustern werden drei Datenbanktypen für Cluster-Metadaten unterstützt: Postgres, MySQL und Oracle.

Schritte zum Sichern von Cloudera Manager-Datenbanken sind in der Cloudera Enterprise-Dokumentation enthalten. Sie können diese Daten dann in ein Cluster importieren, auf dem Cloudera in Oracle Cloud Infrastructure ausgeführt wird.

Hortonworks

Bei Hortonworks werden dieselben Datenbanken wie bei Cloudera unterstützt. Für "Ambari" können Sie einen Blueprint aus dem vorhandenen Cluster exportieren und zum Konfigurieren des Oracle Cloud Infrastructure Hortonwork-Deployments verwenden.

MapR

Befolgen Sie die Schritte in der Dokumentation MapR Best Practices für Backup von MapR. Sie können diese Daten dann in ein Oracle Cloud Infrastructure MapR-Cluster importieren.

Apache

Bei Apache Hadoop werden dieselben Datenbanken wie bei Cloudera und Hortonworks mit denselben Prozeduren wie bei Ambari, Hive und HBase unterstützt.