Carico

Verranno fornite informazioni su tre opzioni di architettura e storage intermedio per caricare i dati di Oracle Cloud ERP in Snowflake.

Carica i dati in Snowflake usando low-code

Questa architettura utilizza OCI GoldenGate e Oracle Data Transforms come i principali strumenti di integrazione dei dati. Utilizzare questa opzione se si stanno già utilizzando questi strumenti e si dispone di almeno un database Oracle in esecuzione su OCI che può essere utilizzato come area intermedia per Snowflake.



migrare-fa-snowflake-goldengate-data-int-oracle.zip

L'opzione utilizza Oracle Data Transforms e OCI GoldenGate come strumenti principali di estrazione e replica. I dati vengono prima caricati in un'area intermedia dei database Oracle e poi in Snowflake. Il connettore GoldenGate-Snowflake dispone di opzioni di configurazione diverse. Questa architettura utilizza la configurazione predefinita. I dati vengono aggiornati sulla destinazione ogni 30 secondi. È in tempo reale sulla fonte, ma quasi in tempo reale sul bersaglio.

Segui il blog OCI GoldenGate Data Transforms che estrae i dati da Oracle Fusion ERP per configurare le trasformazioni dei dati Oracle e estrarre i dati da Oracle Cloud ERP. In OCI GoldenGate, è necessario creare due distribuzioni. Il primo per la tecnologia Oracle in cui viene configurata un'estrazione per l'elenco di tabelle create da Oracle Data Transforms. La seconda distribuzione riguarda le tecnologie Big Data in cui è incluso Snowflake.

Consulta questo blog per Utilizzare OCI GoldenGate per il caricamento iniziale di Snowflake e la sincronizzazione dei dati in tempo reale per configurare sia le distribuzioni che il processo di estrazione e replica su Snowflake.

Questa architettura supporta i componenti elencati di seguito.

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse è un servizio di database self-driving, self-securing e self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun hardware né installare alcun software. OCI gestisce la creazione, il backup, l'applicazione di patch, l'upgrade e il tuning del database.

  • Memorizzazione degli oggetti OCI

    Lo storage degli oggetti OCI fornisce l'accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare in tutta sicurezza i dati direttamente dalle applicazioni o dall'interno della piattaforma cloud. È possibile ridimensionare lo storage senza subire alcun deterioramento a livello di prestazioni o affidabilità del servizio.

    Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.

  • Oracle Data Transforms

    Oracle Data Transforms consente di progettare trasformazioni grafiche dei dati sotto forma di caricamenti dei dati, flussi di dati e flussi di lavoro senza richiedere la scrittura di codice. I caricamenti dati offrono un modo conveniente per caricare i dati in Oracle Autonomous Database. I flussi di dati definiscono il modo in cui i dati vengono spostati e trasformati tra sistemi diversi, mentre i flussi di lavoro definiscono la sequenza di esecuzione dei flussi di dati.

  • OCI GoldenGate

    Oracle Cloud Infrastructure GoldenGate è un servizio gestito che fornisce una piattaforma di data mesh in tempo reale, una replica per mantenere i dati ad alta disponibilità e un'analisi in tempo reale. Puoi progettare, eseguire e monitorare le tue soluzioni di replica e streaming dei dati senza allocare o gestire gli ambienti di calcolo.

Carica dati in Snowflake utilizzando Spark

Questa architettura utilizza Spark (Data Flow) per leggere i dati dallo Storage degli oggetti OCI, seguito dall'API Python Snowflake per caricare i dati in Snowflake.

Dopo aver configurato i job BICC, i file ZIP verranno posizionati nello storage degli oggetti OCI. Questa architettura di riferimento utilizza due strumenti diversi. Data Science per lo sviluppo e il test. Flusso di dati come strumento Spark per eseguire il codice e caricare i dati da OCI Object Storage a Snowflake. Il spark utilizza un driver JDBC che può essere scaricato dalla documentazione Snowflake.



migrare-fa-snowflake-spark-object-storage-oracle.zip

Questa architettura supporta i componenti elencati di seguito.

  • Data Science

    Oracle Cloud Infrastructure Data Science è una piattaforma serverless completamente gestita che i team di data science possono utilizzare per creare, addestrare e gestire modelli di machine learning (ML) su OCI. Può essere facilmente integrato con altri servizi OCI come Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e altro ancora. Puoi creare e valutare modelli di machine learning di alta qualità che aumentano la flessibilità aziendale mettendo rapidamente al lavoro i dati affidabili dell'azienda e puoi supportare obiettivi aziendali basati sui dati con una distribuzione più semplice dei modelli ML. Data Science consente ai data scientist e ai tecnici del machine learning di utilizzare gratuitamente i pacchetti del repository Anaconda.

  • Memorizzazione degli oggetti OCI

    Lo storage degli oggetti OCI fornisce l'accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare in tutta sicurezza i dati direttamente dalle applicazioni o dall'interno della piattaforma cloud. È possibile ridimensionare lo storage senza subire alcun deterioramento a livello di prestazioni o affidabilità del servizio.

    Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.

  • Flusso di dati OCI

    Oracle Cloud Infrastructure Data Flow è un servizio Apache Spark completamente gestito che esegue task di elaborazione su data set estremamente grandi, ma senza infrastruttura da distribuire o gestire. Il flusso di dati è un programma visivo che rappresenta il flusso di dati dagli asset di dati di origine, ad esempio un database o un file sequenziale, agli asset di dati di destinazione, ad esempio un data lake o un data warehouse. Il designer intuitivo dell'interfaccia utente di Integrazione dati OCI viene visualizzato quando si crea, visualizza o modifica un flusso dati.

Carica i dati nello storage cloud e copia in Snowflake

Questa architettura utilizza varie API di storage cloud con Python per copiare i dati da OCI Object Storage ad altri provider cloud come AWS S3, Google Cloud Storage o Azure Blob Storage.

È innanzitutto necessario installare e configurare lo storage cloud pertinente per l'organizzazione:

  1. Carica i dati in Amazon S3 e copia in Snowflake:
    1. Installa Boto3
    2. Configurazione S3 per l'integrazione dello storage Snowflake
    Il processo legge i file ZIP da OCI Object Storage ed estrae il contenuto nell'Amazon S3 di destinazione. Dopo aver copiato i file, è possibile utilizzare il comando Snowflake COPY INTO per caricare i dati nelle tabelle.
  2. Carica i dati in Google Cloud Storage e copia in Snowflake:
    1. Installa Google Cloud SDK
    2. Configurazione di Google Cloud Storage per l'integrazione dello storage Snowflake
    Il processo legge i file ZIP da OCI Object Storage ed estrae i contenuti nel Google Cloud di destinazione. Dopo aver copiato i file, è possibile utilizzare il comando Snowflake COPY INTO per caricare i dati nelle tabelle.
  3. Caricare i dati in Azure Blob Storage e copiarli in Snowflake: configurazione del contenitore di Azure per l'integrazione dello storage Snowflake. Il processo legge i file ZIP da OCI Object Storage ed estrae i contenuti nello storage BLOB di Azure di destinazione. Dopo aver copiato i file, è possibile utilizzare il comando Snowflake COPY INTO per caricare i dati nelle tabelle.


migrare-fa-snowflake-terze parti-storage-oracle.zip

Questa architettura supporta i componenti elencati di seguito.

  • Data Science

    Oracle Cloud Infrastructure Data Science è una piattaforma serverless completamente gestita che i team di data science possono utilizzare per creare, addestrare e gestire modelli di machine learning (ML) su OCI. Può essere facilmente integrato con altri servizi OCI come Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e altro ancora. Puoi creare e valutare modelli di machine learning di alta qualità che aumentano la flessibilità aziendale mettendo rapidamente al lavoro i dati affidabili dell'azienda e puoi supportare obiettivi aziendali basati sui dati con una distribuzione più semplice dei modelli ML. Data Science consente ai data scientist e ai tecnici del machine learning di utilizzare gratuitamente i pacchetti del repository Anaconda.

  • Memorizzazione degli oggetti OCI

    Lo storage degli oggetti OCI fornisce l'accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare in tutta sicurezza i dati direttamente dalle applicazioni o dall'interno della piattaforma cloud. È possibile ridimensionare lo storage senza subire alcun deterioramento a livello di prestazioni o affidabilità del servizio.

    Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.