Répliquer les données de PostgreSQL vers Google BigQuery

Découvrez comment utiliser OCI GoldenGate pour répliquer des données de PostgreSQL vers Google BigQuery.

Avant de commencer

Pour mener à bien ce démarrage rapide, vous devez disposer des éléments suivants :

Environnement configuré : PostgreSQL

Afin de configurer l'environnement pour ce démarrage rapide, procédez comme suit :
  1. Exécutez les commandes suivantes pour installer PostgreSQL.
    1. Installez le serveur PostgreSQL :
      sudo yum install postgresql-server
    2. Installez le module postgresql-contrib pour éviter cette exception SQL :
      sudo yum install postgresql-contrib
    3. Créez un cluster de base de données PostgreSQL :
      sudo postgresql-setup --initdb
    4. Activez postgresql.service :
      sudo systemctl enable postgresql.service
    5. Démarrez postgresql.service :
      sudo systemctl start postgresql.service
  2. Par défaut, PostgreSQL autorise uniquement les connexions locales. Autorisez la connectivité à distance à PostgreSQL.
    1. Dans /var/lib/pgsql/data/postgresql.conf, préparez la base de données pour la réplication.
    2. Localisez et annulez le commentaire de listen_addresses = 'localhost', puis remplacez localhost par un astérisque (*) :
      listen_addresses = '*'
    3. Définissez les paramètres suivants :
      • wal_level = logical
      • max_replication_slots = 1
      • max_wal_senders = 1
      • track_commit_timestamp = on

      Remarques :

      Configurez /var/lib/pgsql/data/pg_hba.conf pour vous assurer que l'authentification client est définie afin d'autoriser les connexions à partir d'un hôte Oracle GoldenGate. Par exemple, ajoutez ce qui suit :
      #Allow connections from remote hosts
      host    all    all    0.0.0.0/0    md5
      Pour plus d'informations, reportez-vous à Fichier pg_hba.conf.
    4. Redémarrez le serveur PostgreSQL :
      sudo systemctl restart postgresql.service
  3. Si vous utilisez Oracle Cloud Compute pour héberger PostgreSQL, ouvrez le port 5432 :
    sudo firewall-cmd --permanent --add-port=5432/tcp
    sudo firewall-cmd --reload
    sudo firewall-cmd --list-all
  4. Ouvrez le port 5432 dans la liste de sécurité de votre VCN.
  5. Connectez-vous à PostgreSQL.
    > sudo su - postgres
    > psql

    Remarques :

    Vous pouvez également entrer sudo su - postgres psql si l'exemple ci-dessus ne fonctionne pas.
  6. Configurez PostgreSQL.
    1. Téléchargez et exécutez seedSRCOCIGGLL_PostgreSQL.sql pour configurer la base de données et charger les données échantillon.
    2. Exécutez les commandes suivantes pour configurer l'utilisateur (assurez-vous de remplacer <password> par un mot de passe réel) :
      create user ggadmin with password '<password>';
      alter user ggadmin with SUPERUSER;
      GRANT ALL PRIVILEGES ON DATABASE ociggll TO ggadmin;

Tâche 1 : créer les ressources OCI GoldenGate

  1. Créez un déploiement pour la base de données PostgreSQL source.
  2. Créez un déploiement Big Data pour la cible Google BigQuery.
  3. Créez une connexion à la cible Google BigQuery.
  4. Créez une connexion à la base de données PostgreSQL source.
    1. Dans Type, assurez-vous de sélectionner le serveur PostgreSQL.
    2. Dans Nom de base de données, entrez ociggll.
    3. Dans Hôte, entrez l'adresse IP publique de l'instance de calcul sur laquelle PostgreSQL s'exécute.
    4. Dans Port, saisissez 5432.
    5. Dans Nom utilisateur, saisissez ggadmin.
    6. Dans Mot de passe, entrez un mot de passe.
    7. Dans Protocole de sécurité, sélectionnez Plain.
  5. Créez une connexion à GoldenGate, puis affectez cette connexion au déploiement PostgreSQL source.
  6. Affectez la connexion source au déploiement PostgreSQL source.
  7. Affectez la connexion cible au déploiement Big Data cible.

Tâche 2 : activer la journalisation supplémentaire

Pour activer la journalisation supplémentaire, procédez comme suit :
  1. Lancez la console de déploiement PostgreSQL GoldenGate :
    1. Sur la page Déploiements, sélectionnez le déploiement PostgreSQL pour en visualiser les détails.
    2. Sur la page des détails du déploiement PostgreSQL, cliquez sur Lancer la console.
    3. Sur la page de connexion à la console de déploiement, entrez les informations d'identification d'administrateur GoldenGate fournies à l'étape 1 de la tâche 1.
  2. Dans GoldenGate 23ai, cliquez sur Connexions de base de données dans la navigation de gauche, puis sur la base de données PostgreSQL source et sur Trandata.
  3. Sur la page TRANDATA, en regard de Informations sur TRANDATA, cliquez sur Ajouter TRANDATA (icône Plus).
  4. Dans le panneau Trandata, pour Nom de schéma, entrez src_ociggll.*, puis cliquez sur Soumettre.

    Remarques :

    Utilisez le champ de recherche pour rechercher src_ociggll et vérifier que les tables ont été ajoutées.

Tâche 3 : créer le fichier Extract

Pour ajouter le fichier Change Data Capture Extract, procédez comme suit :
  1. Dans la barre de navigation de gauche, cliquez sur Extractions.
  2. Sur la page Extractions, cliquez sur Ajouter une extraction (icône Plus), puis renseignez les champs comme suit :
    • Sur la page Informations extraction :
      1. Dans Type d'extraction, sélectionnez Change Data Capture Extract.
      2. Dans Nom de processus, entrez le nom de l'extraction, par exemple ECDC.
      3. Cliquez sur Suivant.
    • Sur la page Options d'extraction :
      1. Pour les informations d'identification source, sélectionnez Oracle GoldenGate dans la liste déroulante Domaine.
      2. Sélectionnez la base de données PostgreSQL source dans la liste déroulante Alias.
      3. Dans Nom de trace d'extraction, saisissez un nom de trace à deux caractères, tel que C1.
      4. Cliquez sur Suivant.
    • Sur la page Paramètres d'extraction, remplacez MAP *.*, TARGET *.*; par l'élément suivant :
      TABLE SRC_OCIGGLL.*;
  3. Cliquez sur Créer et exécuter.

    Vous revenez à la page Extracts, où vous pouvez observer le démarrage de Extracts.

Tâche 4 : créez le fichier Distribution Path pour Change Data Capture.

Afin de créer un fichier Distribution Path pour Change Data Capture, procédez comme suit :

  1. Sur la page Déploiements de la console Oracle Cloud, sélectionnez le déploiement Big Data cible.
  2. Sur la page des détails du déploiement, cliquez sur Lancer la console. Connectez-vous avec les détails de l'utilisateur admin créés à l'étape 2 de la tâche 1.
  3. Si vous utilisez la banque d'informations d'identification IAM, passez à l'étape Créer une Distribution Path. Si vous utilisez la banque d'informations d'identification GoldenGate, créez un utilisateur avec lequel la source GoldenGate utilise pour se connecter à la cible GoldenGate.
    1. Dans le menu de navigation, cliquez sur Administration des utilisateurs.
    2. Cliquez sur Ajouter un nouvel utilisateur (icône Plus), renseignez les champs ci-dessous, puis cliquez sur Envoyer :
      • Dans Nom utilisateur, entrez ggsnet.
      • Dans Rôle, sélectionnez Opérateur.
      • Indiquez le mot de passe à deux reprises pour vérification.
  4. Dans la console de déploiement PostgreSQL source, créez une connexion de chemin pour l'utilisateur créé à l'étape précédente.
    1. Dans le menu de navigation, cliquez sur Connexions de chemin.
    2. Cliquez sur Ajouter une connexion de chemin (icône plus), renseignez les champs comme suit, puis cliquez sur Soumettre :
      • Dans Alias d'informations d'identification, entrez dpuser.
      • Dans ID utilisateur, entrez ggsnet.
      • Dans Mot de passe, entrez le mot de passe utilisé à l'étape précédente.
  5. Cliquez sur Ajouter Distribution Path.
  6. Renseignez le formulaire Ajouter un chemin comme suit :
    1. Sur la page Informations sur le chemin :
      1. Dans Nom de chemin, entrez un nom.
      2. Cliquez sur Suivant.
    2. Sur la page Options source :
      1. Pour Source Extract, sélectionnez Change Data Capture Extract (ECDC)).
      2. Dans Nom de trace, sélectionnez le fichier de trace Change Data Capture (C1).
      3. Cliquez sur Suivant.
    3. Dans la page Target Options :
      1. Dans Cible, sélectionnez Wss.
      2. Dans Hôte cible, entrez l'URL de la console de déploiement cible (vous pouvez le trouver sur la page de détails du déploiement, sans https :// ni barres obliques de fin).
      3. Dans Nombre de port, saisissez 443.
      4. Dans Nom de trace, entrez C1.
      5. Dans Méthode d'authentification cible, sélectionnez UserID Alias.
      6. Dans Domaine, entrez le nom du domaine.
      7. Dans Alias, saisissez l'alias.
    4. Cliquez sur Créer un chemin et exécuter.
  7. Dans la console de déploiement Big Data cible, cliquez sur Receiver Service, puis vérifiez le fichier Receiver Path créé.

Tâche 5 : ajouter un élément Replicat

  1. Dans le menu de navigation de la console de déploiement Big Data cible, cliquez sur Replicats, puis sur Ajouter Replicat (icône Plus).
  2. Sur la page Replicats, cliquez sur Ajouter Replicat (icône Plus), puis remplissez le formulaire Ajouter Replicat comme suit :
    1. Sur la page d'informations Replicat :
      1. Pour Replicat type, sélectionnez Parallel ou Coordinated Replicat.
      2. Dans Nom de processus, entrez un nom, tel que RCDC.
      3. Cliquez sur Suivant.
    2. Sur la page Options Replicat :
      1. Dans Replicat Nom de trace, saisissez le nom de la trace de la tâche 3 (C1).
      2. Pour Informations d'identification cible, sélectionnez le domaine et l'alias de la connexion Google Big Query.
      3. Pour Emplacements de préparation disponibles, sélectionnez Google Cloud Storage dans la liste déroulante.
      4. Pour via un alias de préparation, sélectionnez la connexion Google Cloud Storage dans la liste déroulante.
    3. Dans la page Parameter File, ajoutez la correspondance suivante, puis cliquez sur Next :
      MAP *.*, TARGET *.*;
    4. Sur la page Fichier de propriétés, configurez les propriétés requises selon vos besoins. Recherchez celles marquées comme #TODO, puis cliquez sur Suivant.
      Voici quelques propriétés que vous pouvez envisager de modifier :
      • gg.eventhandler.gcs.bucketMappingTemplate : indiquez le nom du bucket qui sera utilisé en tant que stockage intermédiaire.
  3. Cliquez sur Créer et exécuter.

    Vous revenez à la page Replicats, sur laquelle vous pouvez consulter les détails Replicat.

Tâche 6 : vérifier Change Data Capture

Effectuez des mises à jour de la base de données PostgreSQL source pour vérifier la réplication vers Google BigQuery.
  1. Exécutez le script suivant pour effectuer des opérations d'insertion dans la base de données PostgreSQL :
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);
  2. Dans la console de déploiement PostgreSQL source, sélectionnez le nom Extract (EDCD), puis cliquez sur Statistiques. Vérifiez que src_ociggll.src_city comporte 10 insérations.

    Remarques :

    Si Extract n'a capturé aucune insertion, redémarrez EDCD Extract.
  3. Dans la console de déploiement Big Data cible, sélectionnez le nom Replicat, affichez ses détails et consultez les statistiques pour vérifier le nombre d'insertions.