Cargar
Aprenderá sobre tres opciones de arquitectura y almacenamiento intermedio para cargar datos de Oracle Cloud ERP en Snowflake.
Carga de datos en copo de nieve con poco código
Esta arquitectura utiliza OCI GoldenGate y Oracle Data Transforms como las principales herramientas de integración de datos. Utilice esta opción si ya está utilizando estas herramientas y tiene al menos una instancia de Oracle Database en ejecución en OCI que se puede utilizar como ubicación temporal para Snowflake.
migrate-fa-snowflake-goldengate-data-int-oracle.zip
La opción utiliza Oracle Data Transforms y OCI GoldenGate como herramientas principales de extracción y replicación. Los datos se cargan primero en un área temporal de Oracle Database y, a continuación, en Snowflake. El conector GoldenGate-Snowflake tiene diferentes opciones de configuración. Esta arquitectura utiliza la configuración por defecto. Los datos se refrescan en el destino cada 30 segundos. Es en tiempo real en el origen, pero casi en tiempo real en el destino.
Sigue el blog OCI GoldenGate Data Transforms que extrae datos de Oracle Fusion ERP para configurar Oracle Data Transforms para extraer datos de Oracle Cloud ERP. En OCI GoldenGate, debe crear dos despliegues. La primera para la tecnología de Oracle en la que se configura una extracción para la lista de tablas creadas por Oracle Data Transforms. El segundo despliegue es para tecnologías de Big Data donde se incluye Snowflake.
Revise este blog para Usar OCI GoldenGate para la carga inicial de Snowflake y la sincronización de datos en tiempo real para configurar tanto los despliegues como el proceso de extracción y replicación en Snowflake.
Esta arquitectura admite los siguientes componentes:
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoseguridad y autorreparación optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación, la copia de seguridad, la aplicación de parches, el cambio de versión y el ajuste de la base de datos.
- Almacenamiento de objetos
OCI Object Storage proporciona acceso a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de base de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin experimentar ninguna degradación del rendimiento ni de la fiabilidad del servicio.
Utilice el almacenamiento estándar para el almacenamiento al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivo para el almacenamiento "frío" al que conserva durante largos períodos de tiempo y al que rara vez accede.
- Oracle Data Transforms
Oracle Data Transforms permite diseñar transformaciones gráficas de datos en forma de cargas de datos, flujos de datos y flujos de trabajo sin necesidad de escribir ningún código. Las cargas de datos proporcionan una forma práctica de cargar datos en Oracle Autonomous Database. Los flujos de datos definen cómo se mueven los datos y se transforman entre los diferentes sistemas, mientras que los flujos de trabajo definen la secuencia en la que se ejecutan los flujos de datos.
- OCI GoldenGate
Oracle Cloud Infrastructure GoldenGate es un servicio gestionado que proporciona una plataforma de malla de datos en tiempo real, replicación para mantener los datos altamente disponibles y análisis en tiempo real. Puede diseñar, ejecutar y supervisar sus soluciones de replicación y transmisión de datos sin asignar ni gestionar entornos informáticos.
Carga de datos en Snowflake mediante Spark
Esta arquitectura utiliza Spark (Data Flow) para leer datos de OCI Object Storage, seguido de la API de Python de Snowflake para cargar los datos en Snowflake.
Después de configurar los trabajos de BICC, los archivos ZIP aterrizarán en OCI Object Storage. Esta arquitectura de referencia utiliza dos herramientas diferentes. Data Science para desarrollo y pruebas. Data Flow como herramienta de Spark para ejecutar el código y cargar los datos de OCI Object Storage en Snowflake. La chispa utiliza un controlador JDBC que se puede descargar de la documentación de Snowflake.
migrate-fa-snowflake-spark-object-storage-oracle.zip
Esta arquitectura admite los siguientes componentes:
- Data Science
Oracle Cloud Infrastructure Data Science es una plataforma totalmente gestionada y sin servidor que los equipos de ciencia de datos pueden utilizar para crear, entrenar y gestionar modelos de machine learning (ML) en Oracle Cloud Infrastructure (OCI). Se puede integrar fácilmente con otros servicios de OCI como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage y mucho más. Puede crear y evaluar modelos de aprendizaje automático de alta calidad que aumenten la flexibilidad empresarial al poner los datos de confianza de la empresa a trabajar rápidamente, y puede respaldar los objetivos empresariales basados en datos con un despliegue más sencillo de modelos de aprendizaje automático. Data Science permite a los científicos de datos e ingenieros de aprendizaje automático utilizar paquetes del repositorio de Anaconda de forma gratuita.
- Almacenamiento de objetos
OCI Object Storage proporciona acceso a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de base de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin experimentar ninguna degradación del rendimiento ni de la fiabilidad del servicio.
Utilice el almacenamiento estándar para el almacenamiento al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivo para el almacenamiento "frío" al que conserva durante largos períodos de tiempo y al que rara vez accede.
- Data Flow
Data Flow es un servicio de Apache Spark totalmente gestionado que realiza tareas de procesamiento de juegos de datos de gran tamaño sin infraestructura que desplegar ni gestionar. Data Flow es un programa visual que representa el flujo de datos desde los activos de datos de origen, como una base de datos o un archivo plano, hasta los activos de datos de destino, como un lago de datos o un almacén de datos. El diseñador de interfaz de usuario intuitivo de OCI Data Integration se abre al crear, ver o editar un flujo de datos.
Carga de datos en el almacenamiento en la nube y copia en copo de nieve
Esta arquitectura utiliza varias API de almacenamiento en la nube con Python para copiar los datos de OCI Object Storage a otros proveedores de nube como AWS S3, Google Cloud Storage o Azure Blob Storage.
Primero debe instalar y configurar el almacenamiento en la nube relevante para su organización:
- Carga datos en Amazon S3 y copia en Snowflake: El proceso lee los archivos ZIP de OCI Object Storage y extrae el contenido en el Amazon S3 de destino. Después de copiar los archivos, puede utilizar el comando Snowflake
COPY INTO
para cargar los datos en tablas. - Carga datos en Google Cloud Storage y copia en Snowflake:
- Instalar SDK de Google Cloud
- Configuración de Google Cloud Storage para la integración de almacenamiento Snowflake
COPY INTO
para cargar los datos en tablas. - Carga datos en Azure Blob Storage y copia en Snowflake: configuración de contenedor de Azure para la integración de almacenamiento de Snowflake. El proceso lee los archivos ZIP de OCI Object Storage y extrae el contenido del almacenamiento de bloques de Azure de destino. Después de copiar los archivos, puede utilizar el comando Snowflake
COPY INTO
para cargar los datos en tablas.
migrate-fa-snowflake-third-storage-oracle.zip
Esta arquitectura admite los siguientes componentes:
- Data Science
Oracle Cloud Infrastructure Data Science es una plataforma totalmente gestionada y sin servidor que los equipos de ciencia de datos pueden utilizar para crear, entrenar y gestionar modelos de machine learning (ML) en Oracle Cloud Infrastructure (OCI). Se puede integrar fácilmente con otros servicios de OCI como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage y mucho más. Puede crear y evaluar modelos de aprendizaje automático de alta calidad que aumenten la flexibilidad empresarial al poner los datos de confianza de la empresa a trabajar rápidamente, y puede respaldar los objetivos empresariales basados en datos con un despliegue más sencillo de modelos de aprendizaje automático. Data Science permite a los científicos de datos e ingenieros de aprendizaje automático utilizar paquetes del repositorio de Anaconda de forma gratuita.
- Almacenamiento de objetos
OCI Object Storage proporciona acceso a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de base de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin experimentar ninguna degradación del rendimiento ni de la fiabilidad del servicio.
Utilice el almacenamiento estándar para el almacenamiento al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivo para el almacenamiento "frío" al que conserva durante largos períodos de tiempo y al que rara vez accede.