Datenmigrationsoptionen
Oracle stellt verschiedene Optionen zur Migration von HDFS-Daten, zur Bulk-Datenmigration mit Oracle Data Transfer Appliance und Cluster-Metadatenmigration bereit.
Richtlinien zur Datenmigration
Nachdem Sie die Daten verschoben und die Struktur in Oracle Cloud Infrastructure festgelegt haben, bestimmen Sie die Methode, mit der die Daten von ihrem aktuellen Speicherort in Oracle Cloud Infrastructure verschoben werden sollen. Eine kritische Komponente dieses Prozesses ist die Verbindung zu Oracle Cloud Infrastructure. Der Durchsatz hängt von der Größe der Verbindung ab.
Oracle Cloud Infrastructure unterstützt viele Konnektivitätsebenen. Verbindungen können von 10 Mbps bis zu 10 Gbit/s reichen. Wenn Sie die Größe des Datasets und des Verbindungsdurchsatz berücksichtigen, kann die Migration der Daten so einfach wie eine direkte Kopie sein, oder Sie benötigen besondere Appliances (wie den Data Transfer Service), um die Daten zu verschieben.
Geschätzte Datenuploadzeit | |||||
---|---|---|---|---|---|
Dataset-Größe | 10Mbps | 100Mbps | 1 Gbit/s | 10 Gbit/s | Datenübertragungsservice |
10 TB | 92 Tage | 9 Tage | 22 Stunden | 2 Stunden | 1 Woche |
100 TB | 1,018 Tage | 101 Tage | 10 Tage | 24 Stunden | 1 Woche |
500 TB | 5,092 Tage | 509 Tage | 50 Tage | 5 Tage | 1 Woche |
1 PB | 10,185 Tage | 1,018 Tage | 101 Tage | 10 Tage | 2 Wochen |
Datenübertragungsservice
- Datenträgerbasierter Datentransfer - Sie senden Ihre Daten als Dateien auf einem verschlüsselten Warengruppendatenträger an einen Oracle-Übertragungsstandort. Operatoren auf der Transfersite von Oracle laden die Dateien in den angegebenen Object Storage- oder Archive Storage-Bucket in Ihren Mandanten hoch.
- Appliance-basierte Datenübertragung - Sie senden Daten als Dateien auf sicherer, hochwertiger Kapazität, von Oraclebereitgestellte Speicher-Appliances an einen Oracle-Übertragungsstandort. Operatoren auf der Transfersite von Oracle laden die Daten in den angegebenen Object Storage- oder Archive Storage-Bucket in Ihren Mandanten hoch.
HDFS-Migration
Sie können Daten aus einer externen HDFS auf verschiedene Arten in Oracle Cloud Infrastructure migrieren.
In erster Linie wird davon ausgegangen, wie viele Daten verschoben werden müssen und ob die Daten "über das Drahtmodell" verschoben werden müssen, wobei die Zeit und Ressourcen, die für das Verschieben der Daten erforderlich wären. Wenn ausreichend Bandbreite und Quell-Cluster-Ressourcen zur Unterstützung vorhanden sind, sind zwei Optionen relevant:
- DistCp in Object Storage
- DistCp zu HDFS
Für Object Storage-Kopien benötigt nur das Quell-Cluster Internetkonnektivität, entweder das Setup HDFS Connector (Apache Hadoop) oder die S3-Kompatibilität (Cloudera und Hortonworks). Wenn Sie die S3-Kompatibilität verwenden, können Daten nur in die Home-Region des Mandanten kopiert werden.
Nachdem die Voraussetzungen erfüllt sind, übertragen Sie Daten, indem Sie DistCp für ein Quell-HDFS-Ziel in einen Object Storage-Bucket ausführen. Die folgende Syntax demonstriert eine Kopie in die Region "US East (Ashburn)" Object Storage (ersetzt die Variablen durch Ihre richtigen Werte):
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Umgekehrt können das HDFS-Ziel und das S3-Ziel wechseln, um Daten aus Object Storage in HDFS zu kopieren. Diese Methode funktioniert für Cloudera, Hortonworks und Apache Hadoop.
Die zweite Option besteht darin, ein Hadoop-Cluster in Oracle Cloud Infrastructure aufzubauen, sicherzustellen, dass das Quellcluster und das Oracle Cloud Infrastructure-Cluster die Konnektivität aufweisen, und DistCp zwischen den Clustern ausführen. Diese Lösung funktioniert auch für Apache Hadoop, Cloudera und Hortonworks.
Bei MapR-Clustern migrieren Sie Daten, indem Sie die Remote-Spiegelung von Datenträgern zwischen Clustern einrichten.
Data Transfer Appliance
Oracle Data Transfer Appliance ist eine andere Option für die Datenübertragung, wenn das Verschieben von Daten über das Wire nicht möglich ist.
Bandbreite oder Ressourcen-Constraints können im Quell-Cluster vorhanden sein, oder Näherung an eine Oracle Cloud Infrastructure-Region könnte die Verfügbarkeit von FastConnect begrenzen. Das Dataset könnte auch so groß sein, dass es zu lange für das Kopieren benötigt. In diesen Fällen kann Oracle Ihnen eine Data Transfer Appliance senden, die Sie in Ihrem Data Center bereitstellen und als DistCp-Ziel für HDFS-Daten verwenden können.
Clustermetadatenmigration
Die Lösung für die Migration von Clustermetadaten zu Oracle Cloud Infrastructure variiert zwischen Cloudera, Hortonworks, MapR und Apache.
Cloudera
Bei Cloudera Clustern werden drei Datenbanktypen für Cluster-Metadaten unterstützt: Postgres, MySQL und Oracle.
Schritte zum Sichern von Cloudera Manager-Datenbanken sind in der Cloudera Enterprise-Dokumentation enthalten. Sie können diese Daten dann in ein Cluster importieren, auf dem Cloudera in Oracle Cloud Infrastructure ausgeführt wird.
Hortonworks
Bei Hortonworks werden dieselben Datenbanken wie bei Cloudera unterstützt. Für "Ambari" können Sie einen Blueprint aus dem vorhandenen Cluster exportieren und zum Konfigurieren des Oracle Cloud Infrastructure Hortonwork-Deployments verwenden.
MapR
Befolgen Sie die Schritte in der Dokumentation MapR Best Practices für Backup von MapR. Sie können diese Daten dann in ein Oracle Cloud Infrastructure MapR-Cluster importieren.
Apache
Bei Apache Hadoop werden dieselben Datenbanken wie bei Cloudera und Hortonworks mit denselben Prozeduren wie bei Ambari, Hive und HBase unterstützt.