Réplication de données d'Autonomous Transaction Processing vers Apache Iceberg

Découvrez comment répliquer des données d'Autonomous Transaction Processing vers Apache Iceberg dans OCI GoldenGate.

Avant de commencer

Pour mener à Bien Ce Démarrage Rapide, vous devez avoir :

  • Une instance source Autonomous Transaction Processing
  • Environnement Apache Iceberg cible :
    • OCI GoldenGate prend en charge Azure Data Lake Storage, Amazon S3 et Google Cloud Storage en tant que services de stockage pour les tables Apache Iceberg.
    • OCI GoldenGate prend en charge les catalogues Hadoop, Nessie, AWS Glue, Polaris, REST et JDBC pour Apache Iceberg.

Configuration de l'environnement : Autonomous Transaction Processing

Si aucune base de données source n'est configurée pour la réplication, procédez comme suit afin de charger un schéma échantillon à utiliser avec le démarrage rapide. Ce démarrage rapide utilise Autonomous Transaction Processing pour la base de données source.

Pour configurer la base de données autonome source, procédez comme suit :

  1. Téléchargez et décompressez le schéma échantillon de base de données.
  2. Dans la console Oracle Cloud, sélectionnez votre instance Autonomous Transaction Processing (ATP) sur la page bases de données autonomes pour en visualiser les détails et accéder à Database Actions.
  3. Déverrouillez l'utilisateur GGADMIN :
    1. Cliquez sur Database actions (Actions de base de données), puis sur Database Users (Utilisateurs de base de données).
    2. Localisez GGADMIN, puis cliquez sur le menu représentant des Points de suspension (trois points) et sélectionnez Modifier.
    3. Dans le panneau Modifier l'utilisateur, entrez le mot du passe GGADMIN, confirmez le mot du passe, puis désélectionnez Compte verrouillé.
    4. Cliquez sur Appliquer les modifications.
  4. Chargez le schéma échantillon source et les données :
    1. Dans le menu Actions de base de données, sous Développement, sélectionnez SQL.
    2. Copiez et collez le script d'OCIGGLL_OCIGGS_SETUP_USERS_ATP.sql dans la feuille SQL Worksheet.
    3. Cliquez sur Run Script (Exécuter un script). L'onglet Sortie de script affiche des messages de confirmation.
    4. Effacez la feuille du calcul SQL, puis copiez et collez le script SQL à partir de OCIGGLL_OCIGGS_SRC_USER_SEED_DATA.sql.

      Conseil :

      Vous devrez peut-être exécuter chaque instruction séparément pour que l'outil SQL parvienne à exécuter les scripts.
    5. Pour vérifier que les tables ont bien été créées, fermez la fenêtre SQL et rouvrez-la. Dans l'onglet Navigateur, recherchez le schéma SRC_OCIGGLL, puis sélectionnez les tables de leurs listes déroulantes respectives.
  5. Activez la journalisation supplémentaire :
    1. Effacez la feuille de calcul SQL.
    2. Entrez l'instruction suivante, puis cliquez sur Exécuter l'instruction :
      ALTER PLUGGABLE DATABASE ADD SUPPLEMENTAL LOG DATA;

Tâche 1 : créer les ressources

Cet exemple de démarrage rapide nécessite des déploiements et des connexions pour la source et la cible.

  1. Créez un déploiement Oracle pour l'instance Autonomous Transaction Processing source.
  2. Créez un déploiement Big Data pour la cible Apache Iceberg.
  3. Création d'une connexion Autonomous Transaction Processing.
  4. Créez une connexion Apache Iceberg.
  5. Créez une connexion au serveur GoldenGate et affectez-la au déploiement Oracle.
  6. Affectez la connexion ATP au déploiement Oracle.
  7. Affectez la connexion Iceberg au déploiement Big Data.

Tâche 2 : ajouter le fichier Extract

  1. Sur la page Déploiements, sélectionnez le déploiement Autonomous Transaction Processing source.
  2. Sur la page de détails du déploiement, cliquez sur lancer la console.
  3. Connectez-vous avec le nom utilisateur et le mot de passe de l'administrateur du déploiement source.
  4. Ajoutez des informations relatives aux transactions.
  5. Ajoutez une chaîne Extract.

Tâche 3 : ajouter et exécuter la tâche Distribution Path

  1. Si vous utilisez la banque d'informations d'identification GoldenGate, créez un utilisateur pour le chemin de distribution dans le déploiement Big Data de la cible, sinon passez à l'étape 3.
  2. Dans la console du déploiement ATP GoldenGate source, ajoutez une connexion de chemin pour l'utilisateur créé à l'étape 1.
    1. Dans la console de déploiement ATP GoldenGate source, cliquez sur Connexions de chemin dans la navigation de gauche.
    2. Cliquez sur Ajouter une connexion de chemin (icône Plus), puis effectuez les opérations suivantes :
      1. Dans Alias d'informations d'identification, entrez GGSNetwork.
      2. Dans ID utilisateur, saisissez le nom de l'utilisateur créé à l'étape 1.
      3. Indiquez le mot de passe de l'utilisateur à deux reprises pour vérification.
    3. Cliquez sur Soumettre.

      La connexion par chemin apparaît dans la liste Connexions par chemin.

  3. Dans la console de déploiement ATP source, ajoutez un chemin de distribution avec les valeurs suivantes :
    1. Sur la page Options source :
      • Dans Extraction source, sélectionnez l'extraction créée dans la tâche 2.
      • Dans Nom de la trace, saisissez un Nom à deux caractères, tel que E1
    2. Sur la page Options cible :
      • Dans Hôte cible, entrez le domaine hôte du déploiement cible.
      • Dans Numéro de port, saisissez 443.
      • Dans Nom de la trace, saisissez un Nom à deux caractères, tel que E1
      • Dans Alias, entrez l'alias d'informations d'identification créé à l'étape 2.
  4. Dans la console de déploiement Big Data cible cible, vérifiez le Receiver Path créé consécutivements à la Distribution Path.
    1. Dans la console de déploiement Big Data cible, cliquez sur Receiver Service.
    2. Consultez les détails du chemin. This path was created as a result of the Distribution Path created in the previous step.

Tâche 4 : ajouter et exécuter la réplication

Pour ajouter et exécuter une réplication, procédez comme suit :
  1. In the OCI GoldenGate deployment console, on the Administration Service Home page, click Add Replicat (plus icon).
  2. Dans le panneau Ajouter Replicat, sur la page Informations sur Replicat, renseignez les champs selon vos besoins, puis cliquez sur Suivant :
    • Pour le type de Réplication, sélectionnez Classique Réplication.
    • Entrez un nom de processus de 5 caractères maximum.
    • Entrez une description pour aider à distinguer ce processus des autres.
  3. On the Replicat Options page, complete the fields as needed, and then click Next:
    1. Dans Trace de réplication, entrez le nom de la trace d'extraction.
    2. Dans Cible, sélectionnez Apache Iceberg.
    3. Pour Format, sélectionnez le format à inclure dans l'iceberg Apache. La valeur par défaut est Parquet.
    4. Dans Alias disponible, sélectionnez la connexion Apache Iceberg dans la liste déroulante.
  4. Sur la page Options gérées, conservez les paramètres par défaut et cliquez sur Suivant.
  5. Sur la page Paramètres de réplication, laissez les paramètres par défaut, et cliquez sur Suivant.
  6. Sur la page Propriétés de réplication, mettez à jour les champs marqués, TODO, puis cliquez sur Créer et exécuter.
    Pour plus d'informations, reportez-vous à Détails de la cible Apache Iceberg.

Tâche 5 : vérifier la réplication

Pour vérifier la réplication, effectuez les mises à jour de l'instance ATP source.
  1. Dans la console Oracle Cloud, ouvrez le menu De navigation, sélectionnez Oracle Database, puis Autonomous Database.
  2. Dans la liste des bases de données autonomes, sélectionnez votre instance source pour en visualiser les détails.
  3. Sur la page Détails de la base de données, cliquez sur Database actions (Actions de base de données).
  4. Sur la page Actions de base de données, sélectionnez SQL.
  5. Entrez les instructions d'insertion suivantes dans la feuille de calcul SQL, puis cliquez sur Exécuter le script :
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);
  6. Dans la console du déploiement ATP source, sélectionnez le nom de l'extraction, puis cliquez sur Statistiques. Vérifiez que la variable SRC_OCIGGLL.SRC_CITY comporte 10 insertions.
  7. Dans la console de déploiement Big Data cible, sélectionnez le nom du processus de réplication, puis cliquez sur Statistiques. Vérifiez que la variable SRC_OCIGGLL.SRC_CITY comporte 10 insertions.