Réplication de données de PostgreSQL vers Snowflake

Découvrez comment répliquer des données de PostgreSQL vers Snowflake à l'aide d'OCI GoldenGate.

Avant de commencer

Pour mener à bien ce démarrage rapide, vous devez disposer des éléments suivants :

  • Installation PostgreSQL pour servir de base de données source (instructions d'installation à suivre dans la configuration de l'environnement).
  • Ouvrez le port 5432 dans la liste de sécurité de votre VCN.
  • Base de données Snowflake à utiliser comme base de données cible.

Configuration de l'environnement : PostgreSQL

Afin de configurer l'environnement pour ce démarrage rapide, procédez comme suit :
  1. Exécutez les commandes suivantes pour installer PostgreSQL.
    1. Installez le serveur PostgreSQL :
      sudo yum install postgresql-server
    2. Installez le module postgresql-contrib pour éviter cette exception SQL :
      sudo yum install postgresql-contrib
    3. Créez un cluster de base de données PostgreSQL :
      sudo postgresql-setup --initdb
    4. Activez postgresql.service :
      sudo systemctl enable postgresql.service
    5. Démarrez postgresql.service :
      sudo systemctl start postgresql.service
  2. Par défaut, PostgreSQL autorise uniquement les connexions locales. Autorisez la connectivité à distance à PostgreSQL.
    1. Dans /var/lib/pgsql/data/postgresql.conf, préparez la base de données pour la réplication.
    2. Localisez et annulez le commentaire de listen_addresses = 'localhost', puis remplacez localhost par un astérisque (*) :
      listen_addresses = '*'
    3. Définissez les paramètres suivants :
      • wal_level = logical
      • max_replication_slots = 1
      • max_wal_senders = 1
      • track_commit_timestamp = on
      Remarque

      Configurez /var/lib/pgsql/data/pg_hba.conf pour vous assurer que l'authentification client est définie de manière à autoriser les connexions à partir d'un hôte Oracle GoldenGate. Par exemple, ajoutez ce qui suit :
      #Allow connections from remote hosts
      host    all    all    0.0.0.0/0    md5
      Pour plus d'informations, reportez-vous à Fichier pg_hba.conf.
    4. Redémarrez le serveur PostgreSQL :
      sudo systemctl restart postgresql.service
  3. Si vous utilisez Oracle Cloud Compute pour héberger PostgreSQL, ouvrez le port 5432 :
    sudo firewall-cmd --permanent --add-port=5432/tcp
    sudo firewall-cmd --reload
    sudo firewall-cmd --list-all
  4. Ouvrez le port 5432 dans la liste de sécurité de votre VCN.
  5. Connectez-vous à PostgreSQL.
    > sudo su - postgres
    > psql
    Remarque

    Vous pouvez également entrer sudo su - postgres psql si l'exemple ci-dessus ne fonctionne pas.
  6. Configurez PostgreSQL.
    1. Téléchargez et exécutez seedSRCOCIGGLL_PostgreSQL.sql pour configurer la base de données et charger les données échantillon.
    2. Exécutez les commandes suivantes pour configurer l'utilisateur (assurez-vous de remplacer <password> par un mot de passe réel) :
      create user ggadmin with password '<password>';
      alter user ggadmin with SUPERUSER;
      GRANT ALL PRIVILEGES ON DATABASE ociggll TO ggadmin;

Environnement configuré : Snowflake

  1. Créez un utilisateur GoldenGate dans Snowflake avec des privilèges appropriés.
  2. Créez des tables cible à l'aide d'exemple de schéma.

Assurez-vous que les tables et l'utilisateur ont été créés.

Tâche 1 : créer les ressources OCI GoldenGate

Cet exemple de démarrage rapide nécessite des déploiements et des connexions pour la source et la cible.
  1. Créez un déploiement pour la base de données PostgreSQL source.
  2. Créez un déploiement Big Data pour la base de données Snowflake cible.
  3. Créez une connexion PostgreSQL avec les valeurs suivantes :
    1. Dans Type, sélectionnez PostgreSQL Server dans la liste déroulante.
    2. Dans Nom de base de données, entrez ociggll.
    3. Pour Hôte, entrez l'adresse IP publique de l'instance de calcul sur laquelle PostgreSQL s'exécute.
    4. Dans Port, saisissez 5432.
    5. Dans Nom utilisateur, saisissez ggadmin.
    6. Dans Mot de passe, entrez votre mot de passe.
    7. Dans Protocole de sécurité, sélectionnez Plain dans la liste déroulante.
  4. Créez une connexion Snowflake avec les valeurs suivantes :
    1. Dans le champ URL de connexion, entrez jdbc:snowflake://<account_identifier>.snowflakecomputing.com/?warehouse=<warehouse name>&db=OCIGGLL.
      Remarque

      Veillez à remplacer <account_identifier> et <warehouse name> par les valeurs appropriées.
    2. Dans Type d'authentification, sélectionnez Authentification de base dans la liste déroulante.
    3. Dans Nom utilisateur, entrez un nom.
    4. Dans Mot de passe, entrez un mot de passe.
  5. (Facultatif) Si votre déploiement Big Data n'a pas d'adresse publique, créez une connexion à GoldenGate, puis affectez cette connexion au déploiement PostgreSQL source.
  6. Affectez la connexion PostgreSQL source au déploiement PostgreSQL.
  7. Affectez la connexion Snowflake au déploiement Big Data cible.

Tâche 2 : activer la journalisation supplémentaire

Pour activer la journalisation supplémentaire, procédez comme suit :
  1. Lancez la console de déploiement PostgreSQL GoldenGate :
    1. Sur la page Déploiements, sélectionnez le déploiement PostgreSQL pour en visualiser les détails.
    2. Sur la page des détails du déploiement PostgreSQL, cliquez sur Lancer la console.
    3. Sur la page de connexion à la console de déploiement, entrez les informations d'identification d'administrateur GoldenGate fournies à l'étape 1 de la tâche 1.
      Remarque

      La connexion est requise si IAM n'a pas été sélectionné en tant que banque d'informations d'identification lors de la création d'un déploiement.
  2. Dans GoldenGate 23ai, cliquez sur Connexions de base de données dans la navigation de gauche, puis sur la base de données PostgreSQL source et sur Trandata.
  3. Sur la page TRANDATA, en regard de Informations sur TRANDATA, cliquez sur Ajouter TRANDATA (icône Plus).
  4. Dans le panneau Trandata, dans Nom de schéma, entrez src_ociggll.*, puis cliquez sur Soumettre.
    Remarque

    Utilisez le champ de recherche pour rechercher src_ociggll et vérifier que les tables ont été ajoutées.

Tâche 3 : créer les extractions

  1. Ajoutez Change Data Capture Extract :
    1. Dans la navigation de gauche, cliquez sur Extractions,
    2. Sur la page Extractions, cliquez sur Ajouter une extraction (icône Plus), puis renseignez les champs comme suit :
      • Sur la page Informations extraction :
        1. Dans Type d'extraction, sélectionnez Extraction de capture de données de modification.
        2. Dans Nom de processus, entrez le nom de l'extraction, par exemple ECDC.
        3. Cliquez sur Suivant.
      • Sur la page Options d'extraction :
        1. Pour les informations d'identification source, sélectionnez Oracle GoldenGate dans la liste déroulante Domaine.
        2. Sélectionnez la base de données PostgreSQL source dans la liste déroulante Alias.
        3. Dans Nom de trace d'extraction, saisissez un nom de trace à deux caractères, tel que C1.
        4. Cliquez sur Suivant.
      • Sur la page Paramètres d'extraction, remplacez MAP *.*, TARGET *.*; par l'élément suivant :
        TABLE SRC_OCIGGLL.*;
    3. Cliquez sur Créer et exécuter.
  2. Ajoutez l'extraction du chargement initial :
    1. Sur la page Extractions, cliquez sur Ajouter une extraction, puis remplissez le formulaire Ajouter une extraction comme suit :
      • Sur la page Informations extraction :
        1. Pour le type d'extraction, sélectionnez extraction du chargement initial.
        2. Dans Nom de processus, entrez un nom, tel que EIL.
        3. Cliquez sur Suivant.
      • Sur la page Options d'extraction :
        1. Pour les informations d'identification source, sélectionnez Oracle GoldenGate dans la liste déroulante Domaine.
        2. Sélectionnez la base de données PostgreSQL dans la liste déroulante Alias.
        3. Dans Nom de trace d'extraction, saisissez un nom de trace à deux caractères, tel que I1.
        4. Cliquez sur Suivant.
      • Dans la page Paramètres d'extraction, remplacez le contenu de la zone de texte par ce qui suit :
        EXTRACT EIL
        USERIDALIAS PostgreSQL_Compute, DOMAIN OracleGoldenGate
        EXTFILE I1, PURGE
        TABLE src_ociggll.*;
        Remarque

        Veillez à enlever le paramètre SOURCEDB devant USERIDALIAS avant de passer à autre chose.
    2. Cliquez sur Créer et exécuter.
Vous revenez à la page Extracts, sur laquelle vous pouvez observer le début de l'extraction.

Tâche 4 : créer le fichier Distribution Path pour Initial Load Extract

Afin de créer un fichier Distribution Path pour Initial Load Extract, procédez comme suit :
  1. Sur la page Déploiements de la console Oracle Cloud, sélectionnez le déploiement Big Data cible.
  2. Sur la page des détails du déploiement, cliquez sur Lancer la console. Connectez-vous avec les détails de l'administrateur créés à l'étape 2 de la tâche 1.
  3. Si vous utilisez une banque d'informations d'identification IAM, passez à l'étape Créer une instance Distribution Path. Si vous utilisez la banque d'informations d'identification GoldenGate, créez un utilisateur avec lequel GoldenGate source utilise pour se connecter à GoldenGate cible.
    1. Dans le menu de navigation, cliquez sur Administration des utilisateurs.
    2. Cliquez sur Ajouter un nouvel utilisateur (icône Plus), renseignez les champs comme suit, puis cliquez sur Soumettre :
      • Dans Nom utilisateur, entrez ggsnet.
      • Dans Rôle, sélectionnez Opérateur.
      • Indiquez le mot de passe à deux reprises pour vérification.
  4. Dans la console de déploiement source PostgreSQL, créez une connexion de chemin pour l'utilisateur créé à l'étape précédente.
    1. Dans le menu de navigation, cliquez sur Connexions de chemin.
    2. Cliquez sur Ajouter une connexion de chemin d'accès (icône plus), renseignez les champs comme suit, puis cliquez sur Soumettre :
      • Dans Alias d'informations d'identification, entrez dpuser.
      • Dans ID utilisateur, entrez ggsnet.
      • Dans Mot de passe, entrez le mot de passe utilisé à l'étape précédente.
  5. Créez un fichier Distribution Path.
    1. Dans la barre de menus du service, cliquez sur Distribution Service, puis sur Ajouter Distribution Path (icône Plus).
    2. Renseignez le formulaire Ajouter un chemin comme suit :
      • Sur la page Informations sur le chemin :
        1. Dans Nom de chemin, saisissez le nom du chemin.
        2. Cliquez sur Suivant.
      • Sur la page Options source :
        1. Laissez le champ Source Extract vide.
        2. Dans Nom de trace, saisissez le nom de trace Initial Load Extract (I1).
        3. Cliquez sur Suivant.
      • Dans la page Target Options :
        1. Dans Cible, sélectionnez WSS.
        2. Dans Hôte cible, entrez l'URL de déploiement cible, sans https :// ni barres obliques de fin.
        3. Dans Numéro de port, saisissez 443.
        4. Dans Nom de trace, entrez I1.
        5. Dans Méthode d'authentification cible, sélectionnez Alias d'ID utilisateur.
        6. Dans Domaine, entrez le nom de domaine créé à l'étape précédente.
        7. Dans Alias, entrez l'alias créé à l'étape précédente (dpuser).
        8. Cliquez sur Suivant.
    3. Cliquez sur Créer et exécuter.
    Vous revenez à la page Distribution Service, où vous pouvez examiner le chemin créé.
  6. Dans la console de déploiement Big Data cible, vérifiez le fichier Receiver Path créé suite à la création de Distribution path :
    1. Cliquez sur Receiver Service.
    2. Vérifiez les détails de Receiver Path.

Tâche 5 : ajoutez Replicat pour Initial Load.

  1. Dans la console de déploiement Big Data cible, ajoutez Initial Load Replicat.
    1. Dans le menu de navigation, cliquez sur Replicats, puis sur Ajouter une réplication (icône Plus).
    2. Sur la page Replicats, renseignez les champs Ajouter Replicat comme suit :
      1. Sur la page Informations sur la réplication :
        1. Pour Replicat, type, sélectionnez Classique ou Coordonné.
        2. Dans Nom de processus, entrez un nom, tel que RIL.
        3. Cliquez sur Suivant.
      2. Sur la page Options de réplication :
        1. Dans Nom de trace de réplication, saisissez le nom de la trace de la tâche 2 (I1).
        2. Dans Informations d'identification cible, sélectionnez le domaine et l'alias pour la connexion Snowflake.
        3. Pour Alias disponibles, sélectionnez un alias dans la liste déroulante, par exemple Flocon de neige.
        4. (Facultatif) Activer le stockage externe pour sélectionner un emplacement de préparation disponible dans la liste déroulante.
        5. Cliquez sur Suivant.
      3. Dans la page Parameter File, ajoutez le mapping suivant :
        INSERTALLRECORDS
        MAP src_ociggll.src_city, TARGET SRCMIRROR_OCIGGLL.SRC_CITY;
        MAP src_ociggll.src_region, TARGET SRCMIRROR_OCIGGLL.SRC_REGION;
        MAP src_ociggll.src_customer, TARGET SRCMIRROR_OCIGGLL.SRC_CUSTOMER;
        MAP src_ociggll.src_orders, TARGET SRCMIRROR_OCIGGLL.SRC_ORDERS;
        MAP src_ociggll.src_order_lines, TARGET SRCMIRROR_OCIGGLL.SRC_ORDER_LINES;
        MAP src_ociggll.src_product, TARGET SRCMIRROR_OCIGGLL.SRC_PRODUCT;
      4. Sur la page Propriétés, vérifiez les propriétés, puis cliquez sur Créer et exécuter.

    Vous revenez à la page Replicats, sur laquelle vous pouvez consulter les détails Replicat.

  2. Pour vérifier Initial Load, connectez-vous à la base de données Snowflake et exécutez les requêtes suivantes :
    select * from SRCMIRROR_OCIGGLL.SRC_CITY;
    select * from SRCMIRROR_OCIGGLL.SRC_CUSTOMER;

    La sortie doit renvoyer les données chargées dans les tables de base de données cible suite à Initial Load.

Tâche 6 : créez le fichier Distribution Path pour Change Data Capture.

Afin de créer un fichier Distribution Path pour Change Data Capture, procédez comme suit :
  1. Dans la console de déploiement source PostgreSQL, cliquez sur Service de distribution.
  2. Cliquez sur Ajouter Distribution Path.
  3. Renseignez le formulaire Ajouter un chemin comme suit :
    1. Sur la page Informations sur le chemin :
      1. Dans Nom de chemin, entrez un nom.
      2. Cliquez sur Suivant.
    2. Sur la page Options source :
      1. Pour Source Extract, sélectionnez Integrated Extract (ECDC)).
      2. Dans Nom de trace, sélectionnez le fichier de trace Integrated Extract (C1).
      3. Cliquez sur Suivant.
    3. Dans la page Target Options :
      1. Dans Cible, sélectionnez WSS.
      2. Dans Hôte cible, entrez l'URL de la console de déploiement cible (vous pouvez le trouver sur la page de détails du déploiement, sans https :// ni barres verticales de fin).
      3. Dans Numéro de port, saisissez 443.
      4. Dans Nom de trace, entrez C1.
      5. Dans Méthode d'authentification cible, sélectionnez Alias d'ID utilisateur.
      6. Dans Domaine, entrez le nom du domaine.
      7. Dans Alias, saisissez l'alias.
    4. Cliquez sur Créer un chemin et exécuter.
  4. Dans la console de déploiement Big Data cible, cliquez sur Receiver Service, puis vérifiez le fichier Receiver path créé.

Tâche 7 : ajoutez Replicat pour Change Data Capture.

Effectuez des mises à jour de la base de données PostgreSQL source pour vérifier la réplication vers Snowflake.
  1. Ajoutez Replicat.
    1. Dans la console de déploiement Big Data cible, cliquez sur Administration Service, puis dans le menu de navigation, cliquez sur Replicats.
    2. Sur la page Replicats, cliquez sur Ajouter Replicat (icône Plus), puis remplissez le formulaire Ajouter Replicat comme suit :
      • Sur la page Informations sur la réplication :
        1. Pour Replicat, type, sélectionnez Classic ou Coordinated.
        2. Dans Nom de processus, entrez un nom, tel que RCDC.
        3. Cliquez sur Suivant.
      • Sur la page Options Replicat :
        1. Dans Replicat Nom de trace, saisissez le nom de la trace de la tâche 3 (C1).
        2. Dans Informations d'identification cible, sélectionnez le domaine et l'alias pour la connexion Snowflake.
        3. (Facultatif) Activer le stockage externe pour sélectionner un emplacement de préparation disponible dans la liste déroulante.
      • Sur la page Fichiers de paramètres, ajoutez la correspondance suivante, puis cliquez sur Suivant :
        MAP src_ociggll.src_city, TARGET SRCMIRROR_OCIGGLL.SRC_CITY;
        MAP src_ociggll.src_region, TARGET SRCMIRROR_OCIGGLL.SRC_REGION;
        MAP src_ociggll.src_customer, TARGET SRCMIRROR_OCIGGLL.SRC_CUSTOMER;
        MAP src_ociggll.src_orders, TARGET SRCMIRROR_OCIGGLL.SRC_ORDERS;
        MAP src_ociggll.src_order_lines, TARGET SRCMIRROR_OCIGGLL.SRC_ORDER_LINES;
        MAP src_ociggll.src_product, TARGET SRCMIRROR_OCIGGLL.SRC_PRODUCT;
      • Sur la page Propriétés, vérifiez les propriétés, puis cliquez sur Créer et exécuter.

    Vous revenez à la page Replicats, sur laquelle vous pouvez consulter les détails Replicat.

  2. Vérifiez Change Data Capture :
    1. Effectuez des mises à jour de la base de données PostgreSQL source pour vérifier la réplication vers Snowflake. Exécutez le script suivant pour effectuer des opérations d'insertion dans la base de données PostgreSQL :
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
      Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);
    2. Dans la console de déploiement PostgreSQL source, sélectionnez RCDC, puis cliquez sur Statistiques. Vérifiez que src_ociggll.src_city comporte 10 insérations.
      Remarque :

      si Extract n'a capturé aucune insertion, redémarrez ECDC Extract.
    3. Dans la console de déploiement Big Data cible, sélectionnez RCDC, consultez ses détails et ses statistiques pour vérifier le nombre d'insertions.

Tâche 8 : surveiller les processus et en assurer la maintenance