Uso de herramientas de migración para mover datos a los servicios de almacenamiento en la nube de OCI

Introducción

Este es el tutorial 1 de una serie de cuatro tutoriales que muestra varias formas de migrar datos a los servicios de almacenamiento en la nube de Oracle Cloud Infrastructure (OCI). La serie está configurada para que pueda revisar este primer tutorial para obtener una comprensión amplia de las diversas herramientas y luego proceder a los tutoriales o documentos relacionados relevantes para sus necesidades de migración.

OCI proporciona a los clientes opciones de computación de alto rendimiento y almacenamiento en la nube de bajo costo. Mediante el almacenamiento local, de objetos, de archivos, de bloques y de archivos bajo demanda, Oracle aborda los requisitos y casos de uso de las cargas de trabajo de almacenamiento de claves.

Los servicios de almacenamiento en la nube de OCI ofrecen opciones de almacenamiento en la nube rápidas, seguras y duraderas para todas sus necesidades empresariales. Comenzando con las opciones de alto rendimiento como OCI File Storage con Lustre y OCI Block Volumes; sistemas de archivos a escala de exabytes totalmente gestionados desde el servicio OCI File Storage con destinos de montaje de alto rendimiento; hasta OCI Object Storage altamente duradero y escalable. Nuestras soluciones pueden satisfacer sus demandas, que van desde aplicaciones de alto rendimiento como cargas de trabajo de IA/ML hasta lagos de datos a escala de exabytes.

Muchos clientes encuentran la necesidad de transferir datos al servicio de almacenamiento en la nube de OCI desde un entorno local, otro proveedor o entre servicios de almacenamiento en la nube de OCI. En función de la procedencia, el destino y la dirección de la transferencia de datos, el mejor método para realizar la migración puede variar. Una vez que haya identificado los conceptos básicos del origen de datos y el destino en OCI, tendrá que decidir una ruta de migración y qué herramientas necesitará utilizar. Deje que nuestra experiencia práctica le guíe hacia la herramienta de migración adecuada y cómo usarla. Este tutorial 1 de una serie para presentarle varias herramientas y dónde podrían encajar mejor en el proceso de migración.

Determine la cantidad de datos que se deben migrar y el tiempo de inactividad disponible para pasar a la nueva plataforma de almacenamiento de OCI. Las migraciones por lotes son una buena opción para desglosar la migración en incrementos gestionables. Las migraciones por lotes le permitirán programar el tiempo de inactividad de aplicaciones específicas en diferentes ventanas. Algunos clientes tienen la flexibilidad de realizar una migración única en un período de mantenimiento programado de 2 a 4 días. OCI FastConnect se puede utilizar para crear una conexión privada y dedicada entre OCI y su entorno, con velocidades de puerto de 1G a 400G para acelerar el proceso de transferencia de datos. OCI FastConnect se puede integrar con soluciones de partners como Megaport y ConsoleConnect para crear una conexión privada a su centro de datos o interconexión de nube a nube para mover los datos más directamente de otro proveedor de nube al servicio de almacenamiento en la nube de OCI. Para obtener más información, consulte la integración FastConnect con Megaport Cloud Router.

Público Objetivo

DevOps ingenieros, desarrolladores, administradores y usuarios de almacenamiento en la nube de OCI, gestores de TI, usuarios avanzados de OCI y administradores de aplicaciones.

Objetivos

Descubre cómo utilizar varias herramientas para copiar y sincronizar datos en los servicios de almacenamiento en la nube de OCI:

Requisitos

Herramientas de migración

Nuestra experiencia de cliente y pruebas pueden ayudarle a guiarle a qué herramienta de migración se ajustará mejor a su escenario. Le recomendamos que realice una prueba de concepto y pruebas en conjuntos de datos de muestra para verificar el mejor método de migración para su conjunto de datos. Exploraremos las herramientas de migración comunes disponibles para migrar datos de proveedores locales y de otros proveedores de nube a OCI o dentro de los servicios de almacenamiento en la nube de OCI. Los resultados de las pruebas se comparten desde conjuntos de datos de muestra para que pueda extrapolar cómo pueden funcionar las herramientas en su conjunto de datos.

La herramienta adecuada para el trabajo

Hay muchas herramientas para elegir cuando se realiza una migración, y puede ser abrumador investigarlas todas a la vez. Según el origen, el destino, la dirección de la migración, la experiencia del usuario y el entorno del usuario, la mejor herramienta de migración variará.

En la siguiente tabla se proporcionan recomendaciones para escenarios de migración comunes, incluida la migración de datos locales, la migración de datos de otro proveedor de nube a OCI, la copia de datos de almacenamiento en la nube de OCI de una región a otra, la copia de datos de almacenamiento en la nube de OCI dentro de una región y la copia de datos de almacenamiento de archivos de OCI en OCI Object Storage.

Migrar datos desde Migrar datos a Herramientas recomendadas Notas: Enlaces de documentación/tutorial
Sistema de archivos local OCI Object Storage 1. s5cmd (archivos pequeños/mezclados)
2. Sincronización de OCI Object Storage (pocos archivos grandes)
3. Clonar (mezclado)
4. Resilio Active Anywhere
Utilice la herramienta mejor para sus estructuras de datos y se sienta cómodo usando. Se debe revisar FastConnect para mejorar el tiempo de transferencia. S5cmd y el tutorial de sincronización de Object Storage,
Tutorial de clonación,
Resilio Active Anywhere
Otro objeto de proveedor en la nube o almacenamiento de bloques OCI Object Storage 1. Flexificación de E/S
2. Clonar
Utilice Flexify IO para proveedores compatibles con S3 y cuando desee una interfaz GUI soportada.
Utilice Rclone cuando se sienta cómodo experimentando y alternando varias configuraciones y para el soporte más compatible de más de 70 proveedores de nube diferentes (almacenamiento de objetos compatible con S3 y no compatible con S3).
Flexificación de la migración de E/S entre nubes, Tutorial de clonación
OCI Object Storage OCI Object Storage en otra región 1. Replicación de objetos
2. API de Python de copia masiva de OCI Object Storage
3. Flexificación de E/S
4. Clonar
El uso de la replicación de objetos nativa es adecuado para una réplica exacta de un nuevo cubo que actualmente está vacío. Utilice la API de Python de copia en bloque de OCI Object Storage, Flexify IO o Rclone para inicializar copias de un cubo de origen que ya tenga objetos o cuando desee conservar objetos en el destino. Documentación de replicación de Object Storage,
Uso de las utilidades de Python de Oracle Cloud Infrastructure Object Storage para operaciones en bloque,
Flexificación de E/S,
Tutorial de clonación
OCI Object Storage OCI Object Storage en otro arrendamiento (la misma región o diferente) 1. API de Python de copia masiva de OCI Object Storage
2. Flexificación de E/S
3. Clonar
Requisito para la API de Python de copia masiva de OCI Object Storage: uso de políticas de IAM entre arrendamientos para activar copias entre arrendamientos. Para obtener más información, consulte Acceso a recursos de Object Storage entre arrendamientos. Uso de las utilidades de Python de Oracle Cloud Infrastructure Object Storage para operaciones en bloque,
Flexificación de E/S,
Tutorial de clonación
OCI File Storage OCI Object Storage 1. s5cmd (archivos pequeños/mezclados)
2. Sincronización de Object Storage (pocos archivos grandes)
3. Clonar (mezclado)
4. Resilio Active Anywhere
Utilice la herramienta mejor para sus estructuras de datos y se sienta cómodo usando. S5cmd y el tutorial de sincronización de Object Storage,
Tutorial de clonación,
Resilio Active Anywhere
Sistema de archivos local OCI File Storage 1. fpsync (Linux) y CIFS + fpsync (Windows)
2. Resilio Active Anywhere
Asegúrese de que la conectividad de red se establece entre las instancias de origen y de destino. Documentación de Fpsync,
tutorial de Fpsync,
Resilio Active Anywhere
Almacenamiento de archivos o disco local de otro proveedor de nube OCI File Storage 1. fpsync (Linux) y CIFS + fpsync (Windows)
2. Resilio Active Anywhere
Asegúrese de que la conectividad de red se establece entre las instancias de origen y de destino. Se debe revisar FastConnect para mejorar el tiempo de transferencia. Documentación de Fpsync,
tutorial de Fpsync,
Resilio Active Anywhere
OCI File Storage OCI File Storage en otra región 1. Replicación del sistema de archivos
2. fpsync con transmisión de instancia a instancia
3. Resilio Active Anywhere
Si utiliza la replicación, consulte Limitaciones y consideraciones de la replicación o, si utiliza la transmisión de instancia a instancia, asegúrese de que la conectividad de red se establezca entre las instancias de origen y de destino. Documentación de Fpsync,
tutorial de Fpsync,
Documentación de replicación del sistema de archivos,
Resilio Active Anywhere
OCI File Storage OCI File Storage dentro del mismo dominio de disponibilidad 1. Replicación del sistema de archivos
2. Uso de herramientas paralelas de File Storage: parcp
3. Resilio Active Anywhere
Si utiliza la replicación, consulte Limitations and Considerations de la replicación o, si utiliza el parcp, asegúrese de que tanto el sistema de archivos de origen como el de destino estén montados en la instancia. Replicación del sistema de archivos,
Uso de herramientas paralelas de almacenamiento de archivos: parcp,
Resilio Active Anywhere
Local, otro proveedor de servicios en la nube OCI Object Storage o OCI File Storage Plataforma Resilio Active Anywhere Utiliza la plataforma Resilio Active Anywhere cuando necesites sincronización de datos en múltiples direcciones, servicio de guantes blancos con soporte e interfaz gráfica de usuario. Resilio ha sido verificado por el equipo de productos del servicio de almacenamiento en la nube de OCI y está disponible en Oracle Cloud Marketplace. Para obtener más información sobre el uso de su plataforma, póngase en contacto con el equipo de Resilio.

Nota: La serie de herramientas de migración no incluirá OCI Object Storage ni OCI File System Replication, OCI Object Storage Bulk Copy Python API, Flexify y Resilio. Consulte Enlaces relacionados para obtener más información.

Pasos Siguientes

Continúe con los tutoriales relacionados relevantes para sus necesidades de migración. Para mover datos a los servicios de almacenamiento en la nube de OCI:

(Opcional) Probar entornos

Las recomendaciones se realizan en función de las pruebas y las interacciones con los clientes.

Entorno de Prueba 1:

1 instancia de máquina virtual VM.Standard.E4.Flex, 1 OCPU, ancho de banda de red 1Gbps, 16 GB de memoria. Para simular la migración local a OCI, se copiaron los datos de PHX NFS a IAD.

Juegos de Datos

Tamaño total del conjunto de datos: 3 TB, con 3 archivos, cada archivo 1 TB.

Método De Tiempo Comando Indicadores
sincronización os NFS/Archivo PHX a Object IAD 123m17.102s NA --parallel-operations-count 100
s5cmd NFS/Archivo PHX a Object IAD 239m20.625s copy run commands.txt, ejecución por defecto --numworkers 256
clonación NFS/Archivo PHX a Object IAD 178m27.101s copy --transfers=100 --oos-no-check-bucket --fast-list --checkers 64 --retries 2 --no-check-dest

Nota: Nuestras pruebas mostraron que os sync se ejecutaba más rápido para este juego de datos.

Tamaño total del conjunto de datos: 9.787GB, con 20.000 archivos, cada archivo 20MB

Método De Tiempo Comando Indicadores
s5cmd NFS/Archivo PHX a Object IAD 1m12.746s copy ejecución por defecto --numworkers 256
sincronización os NFS/Archivo PHX a Object IAD 2m48.742s NA --parallel-operations-count 1000
clonación NFS/Archivo PHX a Object IAD 1m52.886s copy --transfers=500 --oos-no-check-bucket --no-check-dest

Nota: Nuestras pruebas mostraron que s5cmd tenía el mejor rendimiento para este juego de datos.

Entorno de Prueba 2:

Instancias de VM: se han utilizado 2 instancias de VM para cada prueba, hemos utilizado VM.Standard.E4.Flex con 24 OCPU, 24Gbps ancho de banda de red y 384 GB de memoria. Oracle Linux 8 se utilizó para las pruebas de Linux. Flexify IO no utiliza instancias de VM.

Juegos de datos utilizados en las pruebas: 14 directorios principales con los siguientes tamaños y recuento de archivos, con un total de 2.25TiB.

Directorio de juego de datos Tamaño Recuento de archivos Tamaño de cada archivo
Directorio 1 107.658 GiB 110.242 1 MiB
Directorio 2 1.687 GiB 110.569 15 MiB
Directorio 3 222 GiB 111 2 GiB
Directorio 4 1.265 TiB 1.295 1 GiB
Directorio 5 26.359 GiB 1.687 16 MiB
Directorio 6 105.281 MiB 26.952 4 KiB
Directorio 7 29.697 MiB 30.410 1 KiB
Directorio 8 83.124 GiB 340.488 256 KiB
Directorio 9 21.662 GiB 354.909 64 KiB
Directorio 10 142.629 GiB 36.514 4 MiB
Directorio 11 452.328 MiB 57.898 8 MiB
Directorio 12 144 GiB 72 2GiB
Directorio 13 208.500 GiB 834 256 MiB
Directorio 14 54.688 GiB 875 64 MiB

Nota:

Método De Tiempo Comando Indicadores/Notas
s5cmd NFS/Archivo PHX a Object IAD 54m41.814s copy --numworkers 74
sincronización os NFS/Archivo PHX a Object IAD 65m43.200s NA --parallel-operations-count 50
clonación NFS/Archivo PHX a Object IAD 111m59.704s copy --oos-no-check-bucket --no-check-dest --ignore-checksum --oos-disable-checksum --transfers 50
clonación Objeto PHX a objeto IAD 28m55.663s copy --oos-no-check-bucket --no-check-dest --ignore-checksum --oos-disable-checksum --transfers 400, el mismo comando se ejecuta en 2 máquinas virtuales para una simultaneidad de 800 transferencias
Script de copia masiva de python Objeto PHX a objeto IAD 25m43.715s Por defecto 1 máquina virtual, 50 trabajadores, 100 000 archivos en cola a la vez
Flexibilizar E/S Objeto PHX a objeto IAD 20m27s copy El valor predeterminado es 10 motores/ranuras.
Flexibilizar E/S Objeto PHX a objeto IAD 16m12s copy 20 motores / ranuras, esto se puede elevar a través de "Configuración avanzada"

Los comandos s5cmd y os sync funcionan bien sobre el sistema de archivos/NFS en el almacenamiento de objetos. La flexibilidad de la E/S y el script de copia masiva solo se centra en las transferencias de almacenamiento de objetos (de un bloque a otro) y no se ha probado para la migración NFS.

Solo Flexify IO,rclone y el script de copia masiva de python son capaces de realizar transferencias de cubo a cubo entre regiones para que las otras herramientas no se hayan probado para ello. Flexify IO funciona mejor para las migraciones de almacenamiento de objetos entre regiones, con un mejor rendimiento del script de copia masiva de python que el de rclone. Es importante tener en cuenta que Flexify IO funciona para el almacenamiento de objetos compatible con S3, el script de copia masiva de python solo funciona con OCI Object Storage, y rclone admite muchos backends y proveedores en la nube.

Las pequeñas ejecuciones de prueba se realizaron utilizando rclone para transferir datos de Microsoft Azure Blob Storage, Amazon Simple Storage Service (Amazon S3) y Google Cloud Platform Cloud Storage a OCI Object Storage para verificar que la herramienta funciona para este tipo de transferencias. Para obtener más información, consulte Mueva datos al almacenamiento de objeto en la nube mediante Rclone.

FlexifyIO se ha utilizado para migrar este juego de datos de AWS us-east-2 a la región de OCI Ashburn y solo ha utilizado 23m51s para 2.25TiB con el valor por defecto de 10 motores/ranuras; se han podido agregar motores/ranuras adicionales para un rendimiento más rápido.

Entorno de Prueba 3:

Instancias de VM: se han utilizado 1-2 instancias de VM para cada prueba, hemos utilizado VM.Standard.E4.Flex con 24 OCPU, ancho de banda de red 24Gbps y 384 GB de memoria. Oracle Linux 8 se utilizó para las pruebas de Linux. Todas las pruebas fueron de cubo a cubo. Flexify IO no utiliza instancias de VM.

Tamaño Total Recuento de Archivos Rango de tamaño de archivo
7.74 TiB 1.000.000 30 MiB
Método De Tiempo Comando Indicadores Notas:  
clonación Objeto a objeto IAD -> IAD 18h39m11.4s copy --oos-no-check-bucket --fast-list --no-traverse --transfers 500 --oos-chunk-size 10Mi 1 VM, muy lenta debido al alto recuento de archivos y la lista de llamadas al origen  
clonación Objeto a objeto IAD -> IAD 55m8.431s copy --oos-no-check-bucket --no-traverse --transfers 500 --oos-chunk-size 10Mi --files-from <file> 2 máquinas virtuales, 500 transferencias por máquina virtual, lista de objetos/archivos alimentada con 1.000 archivos a la vez, evita la inclusión en el origen y el destino y mejora el rendimiento  
Script de copia masiva de python Objeto a objeto IAD -> IAD 28m21.013s NA Por defecto 1 máquina virtual, 50 trabajadores, 100 000 archivos en cola a la vez  
Script de copia masiva de python Objeto a objeto IAD -> IAD NA NA Por defecto 2 máquinas virtuales, 50 trabajadores por máquina virtual y 100 000 archivos en cola a la vez. Se han recibido 429 errores, se ha bloqueado el script y no se ha podido completar  
Flexibilizar E/S Objeto a objeto IAD -> IAD 39m19s copy Por defecto El valor predeterminado es 10 motores/ranuras.  
Flexibilizar E/S Objeto a objeto IAD -> IAD 21m37s copy 20 motores/ranuras Establecido en 20 motores / ranuras, esto se puede elevar a través de "Configuración avanzada"  
s5cmd Objeto a objeto IAD -> IAD 14m10.864s copy Valores por defecto (256 empleados) 1 Máquina virtual NA
s5cmd Objeto a objeto IAD -> IAD 7m50.013s copy Valores por Defecto 2 máquinas virtuales y 256 trabajadores cada máquina virtual Se ejecutó en la mitad del tiempo como 1 VM
s5cmd Objeto a objeto IAD -> IAD 3m23.382s copy --numworkers 1000 1 VM, 1000 trabajadores En varias pruebas encontramos que esta era la ejecución óptima para este juego de datos con s5cmd
clonación Objeto a objeto IAD -> PHX 184m36.536s copy --oos-no-check-bucket --no-traverse --transfers 500 --oos-chunk-size 10Mi --files-from <file> 2 VM, 500 transferencias por VM, lista de objetos/archivos alimentados con 1.000 archivos a la vez  
Script de copia masiva de python Objeto a objeto IAD -> PHX 35m31.633s NA Por defecto 1VM, 50 trabajadores, 100 000 archivos en cola a la vez  
Flexibilizar E/S Objeto a objeto IAD -> PHX 21m17s copy 20 motores/ranuras Establecido en 20 motores / ranuras, esto se puede elevar a través de "Configuración avanzada"  

El comando s5cmd se ha ejecutado mejor de forma consistente para el recuento de archivos grandes y los archivos pequeños. s5cmd está limitado porque solo puede realizar copias de cubo a cubo en el mismo arrendamiento y en la misma región.

Flexify IO sería la herramienta recomendada para este juego de datos de migración, ya que funciona bien y soporta varios tipos de almacenamiento de objetos compatibles con S3. El tiempo de migración ha disminuido después de aumentar el recuento de máquinas/ranuras para Flexify IO.

Observe las grandes mejoras en rclone una vez que los archivos se alimentan al comando y se escalan a otra máquina virtual. Rclone puede funcionar más lento que otras herramientas, sin embargo, es la más versátil en las diversas plataformas que soporta y los tipos de migraciones que puede realizar.

La API de Python de copia masiva de OCI Object Storage solo puede utilizar la API nativa de OCI CopyObject y solo puede obtener hasta una simultaneidad de 50 trabajadores antes de ser regulada, generalmente funciona bastante bien para este juego de datos.

Las pruebas de IAD a PHX solo se realizaron en lo que funcionó mejor en IAD a IAD y las pruebas problemáticas no se volvieron a ejecutar. s5cmd no se ha ejecutado para IAD en PHX porque solo puede realizar copias de cubo a cubo en la misma región.

Acuses de recibo

Más recursos de aprendizaje

Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de aprendizaje gratuito en el canal YouTube de Oracle Learning. Además, visite education.oracle.com/learning-explorer para convertirse en un explorador de Oracle Learning.

Para obtener documentación sobre el producto, visite Oracle Help Center.