Carico
Verranno fornite informazioni su tre opzioni di architettura e storage intermedio per caricare i dati di Oracle Cloud ERP in Snowflake.
Carica i dati in Snowflake usando low-code
Questa architettura utilizza OCI GoldenGate e Oracle Data Transforms come strumenti di integrazione dei dati principali. Utilizzare questa opzione se si stanno già utilizzando questi strumenti e si dispone di almeno un Oracle Database in esecuzione su OCI che può essere utilizzato come area intermedia per Snowflake.
migrare-fa-snowflake-goldengate-data-int-oracle.zip
L'opzione utilizza Oracle Data Transforms e OCI GoldenGate come strumenti di estrazione e replica principali. I dati vengono prima caricati in un'area intermedia di Oracle Database e quindi in Snowflake. Il connettore GoldenGate-Snowflake dispone di diverse opzioni di configurazione. Questa architettura utilizza la configurazione predefinita. I dati vengono aggiornati sulla destinazione ogni 30 secondi. È in tempo reale sulla fonte ma quasi in tempo reale sul bersaglio.
Segui il blog OCI GoldenGate Data Transforms che estrae i dati da Oracle Fusion ERP per configurare le trasformazioni dei dati Oracle e estrarre i dati da Oracle Cloud ERP. In OCI GoldenGate, è necessario creare due distribuzioni. Il primo per la tecnologia Oracle in cui viene configurata un'estrazione per l'elenco di tabelle create da Oracle Data Transforms. La seconda distribuzione riguarda le tecnologie Big Data in cui è incluso Snowflake.
Consulta questo blog per Utilizzare OCI GoldenGate per il caricamento iniziale di Snowflake e la sincronizzazione dei dati in tempo reale per configurare sia le distribuzioni che il processo di estrazione e replica su Snowflake.
Questa architettura supporta i componenti elencati di seguito.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse è un servizio di database self-driving, self-securing, self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione, il backup, l'applicazione di patch, l'upgrade e il tuning del database.
- Storage degli oggetti
Lo storage degli oggetti OCI fornisce accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi archiviare i dati direttamente da Internet o dalla piattaforma cloud in tutta sicurezza. Puoi ridimensionare lo storage senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio.
Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.
- Oracle Data Transforms
Oracle Data Transforms consente di progettare trasformazioni grafiche dei dati sotto forma di caricamenti dei dati, flussi di dati e flussi di lavoro senza richiedere la scrittura di codice. I caricamenti dati offrono un modo conveniente per caricare i dati in Oracle Autonomous Database. I flussi di dati definiscono il modo in cui i dati vengono spostati e trasformati tra sistemi diversi, mentre i flussi di lavoro definiscono la sequenza di esecuzione dei flussi di dati.
- OCI GoldenGate
Oracle Cloud Infrastructure GoldenGate è un servizio gestito che fornisce una piattaforma di data mesh in tempo reale, una replica per mantenere i dati ad alta disponibilità e un'analisi in tempo reale. Puoi progettare, eseguire e monitorare le tue soluzioni di replica e streaming dei dati senza allocare o gestire gli ambienti di calcolo.
Carica dati in Snowflake utilizzando Spark
Questa architettura utilizza Spark (Data Flow) per leggere i dati dallo Storage degli oggetti OCI, seguito dall'API Python Snowflake per caricare i dati in Snowflake.
Dopo aver configurato i job BICC, i file ZIP verranno posizionati nello storage degli oggetti OCI. Questa architettura di riferimento utilizza due strumenti diversi. Data Science per lo sviluppo e il test. Flusso di dati come strumento Spark per eseguire il codice e caricare i dati da OCI Object Storage a Snowflake. Il spark utilizza un driver JDBC che può essere scaricato dalla documentazione Snowflake.
migrare-fa-snowflake-spark-object-storage-oracle.zip
Questa architettura supporta i componenti elencati di seguito.
- Data Science
Oracle Cloud Infrastructure Data Science è una piattaforma serverless completamente gestita che i team di data science possono utilizzare per creare, addestrare e gestire modelli di Machine Learning (ML) su Oracle Cloud Infrastructure (OCI). Può facilmente integrarsi con altri servizi OCI, come Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e altro ancora. Puoi creare e valutare modelli di machine learning di alta qualità che aumentano la flessibilità aziendale mettendo rapidamente a frutto i dati affidabili dell'azienda e puoi supportare obiettivi aziendali basati sui dati con una distribuzione più semplice dei modelli ML. Data Science consente ai data scientist e ai tecnici del machine learning di utilizzare gratuitamente i pacchetti del repository Anaconda.
- Storage degli oggetti
Lo storage degli oggetti OCI fornisce accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi archiviare i dati direttamente da Internet o dalla piattaforma cloud in tutta sicurezza. Puoi ridimensionare lo storage senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio.
Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.
- Data Flow
Data Flow è un servizio Apache Spark completamente gestito che esegue task di elaborazione su data set estremamente grandi, senza infrastruttura da distribuire o gestire. Flusso di dati è un programma visivo che rappresenta il flusso di dati dagli asset dati di origine, ad esempio un database o un file sequenziale, agli asset dati di destinazione, ad esempio un data lake o un data warehouse. Il designer intuitivo dell'interfaccia utente di OCI Data Integration viene aperto quando si crea, visualizza o modifica un flusso di dati.
Carica i dati nello storage cloud e copia in Snowflake
Questa architettura utilizza varie API di storage cloud con Python per copiare i dati da OCI Object Storage ad altri provider cloud come AWS S3, Google Cloud Storage o Azure Blob Storage.
È innanzitutto necessario installare e configurare lo storage cloud pertinente per l'organizzazione:
- Carica i dati in Amazon S3 e copia in Snowflake: Il processo legge i file ZIP da OCI Object Storage ed estrae il contenuto nell'Amazon S3 di destinazione. Dopo aver copiato i file, è possibile utilizzare il comando Snowflake
COPY INTO
per caricare i dati nelle tabelle. - Carica i dati in Google Cloud Storage e copia in Snowflake:
- Installa Google Cloud SDK
- Configurazione di Google Cloud Storage per l'integrazione dello storage Snowflake
COPY INTO
per caricare i dati nelle tabelle. - Caricare i dati in Azure Blob Storage e copiarli in Snowflake: configurazione del contenitore di Azure per l'integrazione dello storage Snowflake. Il processo legge i file ZIP da OCI Object Storage ed estrae i contenuti nello storage BLOB di Azure di destinazione. Dopo aver copiato i file, è possibile utilizzare il comando Snowflake
COPY INTO
per caricare i dati nelle tabelle.
migrare-fa-snowflake-terze parti-storage-oracle.zip
Questa architettura supporta i componenti elencati di seguito.
- Data Science
Oracle Cloud Infrastructure Data Science è una piattaforma serverless completamente gestita che i team di data science possono utilizzare per creare, addestrare e gestire modelli di Machine Learning (ML) su Oracle Cloud Infrastructure (OCI). Può facilmente integrarsi con altri servizi OCI, come Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e altro ancora. Puoi creare e valutare modelli di machine learning di alta qualità che aumentano la flessibilità aziendale mettendo rapidamente a frutto i dati affidabili dell'azienda e puoi supportare obiettivi aziendali basati sui dati con una distribuzione più semplice dei modelli ML. Data Science consente ai data scientist e ai tecnici del machine learning di utilizzare gratuitamente i pacchetti del repository Anaconda.
- Storage degli oggetti
Lo storage degli oggetti OCI fornisce accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi archiviare i dati direttamente da Internet o dalla piattaforma cloud in tutta sicurezza. Puoi ridimensionare lo storage senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio.
Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.