Charge

Vous découvrirez trois options d'architecture et de stockage intermédiaire pour charger des données Oracle Cloud ERP dans Snowflake.

Charger des données dans Snowflake à l'aide de Low Code

Cette architecture utilise OCI GoldenGate et Oracle Data Transforms comme principaux outils d'intégration de données. Utilisez cette option si vous utilisez déjà ces outils et qu'au moins une instance Oracle Database est exécutée sur OCI et peut être utilisée comme préparation pour Snowflake.



migrate-fa-snowflake-goldengate-data-int-oracle.zip

L'option utilise Oracle Data Transforms et OCI GoldenGate comme principaux outils d'extraction et de réplication. Les données sont d'abord chargées dans une zone intermédiaire Oracle Database, puis dans Snowflake. Le connecteur GoldenGate-Snowflake comporte différentes options de configuration. Cette architecture utilise la configuration par défaut. Les données sont actualisées sur la cible toutes les 30 secondes. C'est en temps réel sur la source mais presque en temps réel sur la cible.

Suivez le blog OCI GoldenGate Data Transforms qui extrait des données d'Oracle Fusion ERP pour configurer Oracle Data Transforms afin d'extraire des données d'Oracle Cloud ERP. Sur OCI GoldenGate, vous devez créer deux déploiements. Le premier pour la technologie Oracle où une extraction est configurée pour la liste des tables créées par Oracle Data Transforms. Le second déploiement concerne les technologies Big Data dans lesquelles Snowflake est inclus.

Consultez ce blog pour Utiliser OCI GoldenGate pour le chargement initial de Snowflake et la synchronisation de données en temps réel afin de configurer à la fois les déploiements et le processus d'extraction et de réplication vers Snowflake.

Cette architecture prend en charge les composants suivants :

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse est un service de base de données doté de fonctions d'autopilotage, d'autosécurisation et d'autoréparation optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas à configurer ni à gérer le matériel, ni à installer de logiciel. Oracle Cloud Infrastructure gère la création, la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

  • Object storage

    OCI Object Storage permet d'accéder à de grandes quantités de données, structurées ou non, de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker les données directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité des services.

    Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

  • Oracle Data Transforms

    Oracle Data Transforms vous permet de concevoir des transformations de données graphiques sous forme de chargements de données, de flux de données et de workflows sans avoir à écrire de code. Les chargements de données constituent un moyen pratique de charger des données dans Oracle Autonomous Database. Les flux de données définissent le mode de déplacement et de transformation des données entre différents systèmes, alors que les workflows définissent la séquence d'exécution des flux de données.

  • OCI GoldenGate

    Oracle Cloud Infrastructure GoldenGate est un service géré qui fournit une plate-forme de maillage de données en temps réel, une réplication pour maintenir la haute disponibilité des données et des analyses en temps réel. Vous pouvez concevoir, exécuter et surveiller vos solutions de réplication et de diffusion en continu de données sans allouer ni gérer d'environnements de calcul.

Chargement de données dans Snowflake à l'aide de Spark

Cette architecture utilise Spark (Data Flow) pour lire les données à partir d'OCI Object Storage, puis l'API Python Snowflake pour charger les données dans Snowflake.

Une fois les travaux BICC configurés, les fichiers ZIP arrivent sur OCI Object Storage. Cette architecture de référence utilise deux outils différents. Data Science pour le développement et les tests. Data Flow en tant qu'outil Spark permettant d'exécuter le code et de charger les données d'OCI Object Storage vers Snowflake. Le spark utilise un pilote JDBC qui peut être téléchargé à partir de la documentation Snowflake.



migrate-fa-snowflake-spark-object-storage-oracle.zip

Cette architecture prend en charge les composants suivants :

  • Data Science

    Oracle Cloud Infrastructure Data Science est une plate-forme sans serveur entièrement gérée que les équipes de science des données peuvent utiliser pour créer, entraîner et gérer des modèles d'apprentissage automatique sur Oracle Cloud Infrastructure (OCI). Il peut facilement s'intégrer à d'autres services OCI tels qu'Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage, etc. Vous pouvez créer et évaluer des modèles de machine learning de haute qualité qui augmentent la flexibilité de l'entreprise en mettant rapidement en œuvre des données fiables pour l'entreprise, et vous pouvez prendre en charge des objectifs commerciaux axés sur les données avec un déploiement plus facile des modèles de machine learning. Data Science permet aux data scientists et aux ingénieurs en apprentissage automatique d'utiliser gratuitement les packages du référentiel Anaconda.

  • Object storage

    OCI Object Storage permet d'accéder à de grandes quantités de données, structurées ou non, de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker les données directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité des services.

    Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

  • Data Flow

    Data Flow est un service Apache Spark entièrement géré qui effectue des tâches de traitement sur des ensembles de données très grands, sans infrastructure à déployer ni à gérer. Data Flow est un programme visuel représentant le flux des données des ressources de données source, telles qu'une base de données ou un fichier plat, aux ressources de données cible, telles qu'un lac de données ou un entrepôt de données. Le concepteur d'interface utilisateur intuitif OCI Data Integration s'ouvre lorsque vous créez, visualisez ou modifiez un flux de données.

Charger des données dans le stockage cloud et les copier dans Snowflake

Cette architecture utilise diverses API de stockage cloud avec Python pour copier les données d'OCI Object Storage vers d'autres fournisseurs cloud tels qu'AWS S3, Google Cloud Storage ou Azure Blob Storage.

Vous devez d'abord installer et configurer le stockage cloud approprié pour votre organisation :

  1. Chargez les données dans Amazon S3 et copiez-les dans Snowflake :
    1. Installer Boto3
    2. Configuration S3 pour l'intégration du stockage Snowflake
    Le processus lit les fichiers ZIP à partir d'OCI Object Storage et extrait le contenu dans Amazon S3 cible. Une fois les fichiers copiés, vous pouvez utiliser la commande Snowflake COPY INTO pour charger les données dans des tables.
  2. Chargez des données dans Google Cloud Storage et copiez-les dans Snowflake :
    1. Installer le SDK Google Cloud
    2. Configuration de Google Cloud Storage pour l'intégration du stockage Snowflake
    Le processus lit les fichiers ZIP à partir d'OCI Object Storage et extrait le contenu dans le cloud Google cible. Une fois les fichiers copiés, vous pouvez utiliser la commande COPY INTO Snowflake pour charger les données dans des tables.
  3. Chargez des données dans Azure Blob Storage et copiez-les dans Snowflake : configuration de conteneur Azure pour l'intégration du stockage Snowflake. Le processus lit les fichiers ZIP à partir d'OCI Object Storage et extrait le contenu dans le stockage BLOB Azure cible. Une fois les fichiers copiés, vous pouvez utiliser la commande COPY INTO Snowflake pour charger les données dans des tables.


migrate-fa-snowflake-tiers-stockage-oracle.zip

Cette architecture prend en charge les composants suivants :

  • Data Science

    Oracle Cloud Infrastructure Data Science est une plate-forme sans serveur entièrement gérée que les équipes de science des données peuvent utiliser pour créer, entraîner et gérer des modèles d'apprentissage automatique sur Oracle Cloud Infrastructure (OCI). Il peut facilement s'intégrer à d'autres services OCI tels qu'Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage, etc. Vous pouvez créer et évaluer des modèles de machine learning de haute qualité qui augmentent la flexibilité de l'entreprise en mettant rapidement en œuvre des données fiables pour l'entreprise, et vous pouvez prendre en charge des objectifs commerciaux axés sur les données avec un déploiement plus facile des modèles de machine learning. Data Science permet aux data scientists et aux ingénieurs en apprentissage automatique d'utiliser gratuitement les packages du référentiel Anaconda.

  • Object storage

    OCI Object Storage permet d'accéder à de grandes quantités de données, structurées ou non, de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker les données directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité des services.

    Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.