8.17 Oracle GoldenGate for DAAによるOracle AI Data Platformへのリアルタイム・データ取込み

概要

このクイックスタートでは、Oracle GoldenGate for Distributed Applications and Analytics (GG for DAA)を使用してリアルタイムにOracle AI Data Platform (AIDP)にparquetファイルを取り込む方法を、手順を追って説明します。

Oracle AI Data Platformは、データ・レイク、カタログ、コンピュート、ワークフローのオーケストレーションを単一のサービスに統合する管理型サービスです。これにより、ユーザーは構造化データと非構造化データを安全に検出、準備、管理でき、Apache Sparkを使用して大規模な分析およびAI/MLワークロードを実現し、データ主導型アプリケーションを構築してビジネス・インサイトを加速できます。

GG for DAAのAIDPハンドラでは、ステージングおよびマージのデータ・フローが使用されます。ステージングおよびマージでは、変更データがマイクロバッチでOCIオブジェクト・ストレージ・バケットにステージングされ、最終的にAIDPによって管理されるターゲット・デルタ表にマージされます。すべてのレプリケーション・プロセスは、Oracle AI Data Platformによって自動的に処理されます。

8.17.1 前提条件

このクイックスタートを正常に完了するには、次のものが必要です:
  • Oracle AI Data Platform用に設定されたOracle Cloud Infrastructureアカウント。
  • Apache Spark用のSimba JDBCドライバ。Simba JDBCドライバは、Oracle AI Data Platformコンソールのクラスタ詳細ページからダウンロードできます。

このクイックスタートでは、GG for DAAに付属のサンプル証跡ファイル(trという名前)を使用します。サンプル証跡ファイルを使用して続行する場合、それはGG for DAAインスタンスのGG_HOME/opt/AdapterExamples/trail/にあります。

8.17.2 必要な依存性ファイルのインストール

GG for DAAでは、レプリケーション・プロセスでクライアント・ライブラリが使用されるため、これらのライブラリを、レプリケーション・プロセスを設定する前にダウンロードする必要があります。依存性ダウンローダを使用してそれらのクライアント・ライブラリをダウンロードできます。依存性ダウンローダは、Mavenおよび他のリポジトリから依存性jarファイルをダウンロードするシェル・スクリプトのセットです。

GG for DAAでは、AIDPコンソールからダウンロードできるSimba JDBCドライバを使用します。Simba JDBCドライバは、Oracle AI Data Platformワークスペース/コンピュート/接続の詳細からダウンロードできます。

図8-124 JDBCドライバ


JDBCドライバのダウンロード

OCIオブジェクト・ストレージに必要な依存性ファイルは、GG for DAAで使用可能な依存性ダウンローダ・ユーティリティを使用してダウンロードできます。依存性ダウンローダは、Mavenおよび他のリポジトリから依存性jarファイルをダウンロードするシェル・スクリプトのセットです。
  1. GG for DAA VMで、GG_HOME/opt/DependencyDownloader/にある依存性ダウンローダ・ユーティリティに移動します。
  2. 必要なバージョンでoracle_oci.shを実行します。

    図8-125 必要なバージョンでのoracle_oci.shの実行


    必要なバージョンのoracle_oci.sh

  3. 新しいディレクトリがGG_HOME/opt/DependencyDownloader/dependenciesに作成されます。たとえば、/u01/app/ogg/opt/DependencyDownloader/dependencies/oracle_oci_3.2.0/*です。このディレクトリを書き留めます。

8.17.3 Oracle Cloud Infrastructureの資格証明の構成

OCIへの認証のために構成ファイルを作成する必要があります。理想的な構成ファイルには、userfingerprintkey_filetenancyおよびregionとそれぞれの値が含まれています。デフォルトの構成ファイルの名前と場所は、~/.oci/configです。詳細は、必須キーおよびOCIDのドキュメントを参照してください。

サンプル構成ファイル
[DEFAULT]
user=ocid1.user.oc1..mockValue
fingerprint=mockFingerPrintValue
tenancy=ocid1.compartment.oc1..mockValue
region=us-phoenix-1
key_file=<path to your private keyfile>

8.17.4 Oracle GoldenGate for Distributed Applications and AnalyticsでのReplicatの作成

Oracle GoldenGate for Distributed Applications and Analytics (GG for DAA)でReplicatを作成するには:
  1. 「管理サービス」に移動し、「+」記号をクリックしてReplicatを追加します。

    図8-126 「管理サービス」タブの「+」をクリック


    「管理サービス」タブの「+」をクリックします

  2. Replicatのタイプを選択して、「次」をクリックします。

    使用可能なReplicatタイプには、クラシックReplicat調整済Replicatの2種類があります。クラシックReplicatは単一のスレッド・プロセスですが、調整済Replicatは、トランザクションをパラレルに適用するマルチスレッド・プロセスです。調整済Replicatでは、マルチスレッド・プロセスが実行されているため、複数のファイルが作成されます。

    図8-127 Replicatオプションの選択

    Replicatオプション
  3. 「Replicatオプション」を入力して「次」をクリックします:
    1. Replicatトレイル: 必要な証跡ファイルの名前。サンプル証跡の場合は、trを指定します。
    2. サブディレクトリ: サンプル証跡を使用する場合は、GG_HOME/opt/AdapterExamples/trail/と入力します。
    3. ターゲット: Oracle AI Data Platform

      図8-128 Replicatオプションの指定とターゲットの選択

      Replicatオプションの指定とターゲットの選択
    4. 「管理対象オプション」はそのままにして、「次」をクリックします。

      図8-129 管理対象オプション

      管理対象オプション
    5. 「パラメータ・ファイル」の詳細を入力し、「次へ」をクリックします。
      「パラメータ・ファイル」では、ソースからターゲットへのマッピングを指定するか、ワイルドカード選択でそのままにしておくことができます。「Replicatタイプ」として「調整済Replicat」を選択した場合は、さらに次のパラメータを指定する必要があります:
      TARGETDB LIBFILE libggjava.so SET property=<ggbd-deployment_home>/etc/conf/ogg/your_replicat_name.properties

      図8-130 パラメータ・ファイル

      パラメータ・ファイル
    6. 「プロパティ・ファイル」で、TODOとマークされているプロパティを更新し、「作成および実行」をクリックします。

      ノート:

      「作成および実行」をクリックする前に、指定されたプロパティ・リストをコピーしてプロパティ・ファイルに貼り付け、必要に応じて更新し、「作成および実行」をクリックする必要があります。
      # Properties file for Replicat
      AIDP# Configuration to load
      GoldenGate trail operation records into AI Data Platform using OCI object store staging
      location.# Note: Recommended to only edit
      the configuration marked as TODO
      
      gg.target=aidp
      gg.stage=oci
      # The OCI Event handler
      #TODO: Edit the OCI Config file path
      gg.eventhandler.oci.configFilePath=/path_to/.oci/config
      #TODO: Edit the OCI profile
      gg.eventhandler.oci.profile=<your_oci_profile_name>
      #TODO: Edit the OCI region
      gg.eventhandler.oci.region=<your_oci_region>
      #TODO: Edit the OCI compartment OCID
      gg.eventhandler.oci.compartmentID=<your_compartment_ocid, eg; ocid1.compartment.oc1..aaaaaaaaftrzllvla63f5von…>
      #TODO: Edit the OCI bucket name
      gg.eventhandler.oci.bucketMappingTemplate=<your_bucket_name>
      
      # Oracle AI Data Platform Event Handler.
      #TODO: Edit JDBC ConnectionUrl
      gg.eventhandler.aidp.connectionURL=<your_aidp_jdbc, eg; jdbc:spark://gateway.datalake.us-ashburn-1.oci.oraclecloud.com/default;SparkServerType=IDL;httpPath=cliservice/393dcb48-302…;OCIProfile=<your_oci_profile_name>;
      #TODO: Edit the classpath to include OCI Event handler dependencies and Simba JDBC driver.
      gg.classpath=/home/oracle/dependencies/*:/home/oracle/install/gg/opt/DependencyDownloader/dependencies/oracle_oci_3.0.0/*
      
  4. Replicatが正常に起動されると、それが実行状態になります。action/details/statisticsに移動して、レプリケーション統計を確認します。

    図8-131 レプリケーション統計

    レプリケーション統計

    図8-132 レプリケーション統計


    レプリケーション統計

  5. AI Data Platformコンソールに移動し、表を確認します。表の作成とロードには、少し時間がかかる場合があります。

    図8-133 AI Data Platform

    AI Data Platform