PostgreSQLからGoogle BigQueryへのデータのレプリケート
OCI GoldenGateを使用して、PostgreSQLからGoogle BigQueryにデータをレプリケートする方法を学習します。
開始する前に
このクイックスタートを正常に完了するには、次が必要です:
このクイックスタートを正常に完了するには、次が必要です:
-
ソース・データベースとして機能するPostgreSQLインストール(環境設定を参照)
-
VCNのセキュリティ・リストでポート5432を開きます
-
Google Cloud Storageへの接続を作成します。
ノート: GCSバケットとBigQueryデータセットが同じ場所/リージョンに存在することを確認します。
環境設定: PostgreSQL
このクイックスタートの環境を設定するには:
-
次のコマンドを実行して、PostgreSQLをインストールします。
-
PostgreSQLサーバーをインストールします。
sudo yum install postgresql-server -
このSQL例外を回避するために、postgresql-contribモジュールをインストールします。
sudo yum install postgresql-contrib -
新しいPostgreSQLデータベース・クラスタを作成します。
sudo postgresql-setup --initdb -
postgresql.serviceを有効にします。
sudo systemctl enable postgresql.service -
postgresql.serviceを起動します。
sudo systemctl start postgresql.service
-
-
デフォルトでは、PostgreSQLはローカル接続のみを許可します。PostgreSQLへのリモート接続を許可します。
-
/var/lib/pgsql/data/postgresql.confで、データベースをレプリケーション用に準備します。 -
listen_addresses = 'localhost'を見つけてコメント解除し、localhostをアスタリスク(`)に変更します。listen_addresses = '*' -
次のパラメータを次のように設定します。
-
wal_level = logical -
max_replication_slots = 1 -
max_wal_senders = 1 -
track_commit_timestamp = on
ノート:
/var/lib/pgsql/data/pg_hba.confを構成して、Oracle GoldenGateホストからの接続を許可するようにクライアント認証が設定されていることを確認します。たとえば、次を追加します:#Allow connections from remote hosts host all all 0.0.0.0/0 md5詳細は、The pg_hba.conf Fileを参照してください。
- PostgreSQLサーバーを再起動します。
sudo systemctl restart postgresql.service- Oracle Cloud Computeを使用してPostgreSQLをホストする場合は、ポート5432を開きます。
sudo firewall-cmd --permanent --add-port=5432/tcp sudo firewall-cmd --reload sudo firewall-cmd --list-all -
-
VCNのセキュリティ・リストでポート5432を開きます。
-
> sudo su - postgres > psqlノート:前述の例が機能しない場合は、
sudo su - postgres psqlを入力することもできます。 -
PostgreSQLを設定します。
-
seedSRCOCIGGLL_PostgreSQL.sqlをダウンロードして実行し、データベースを設定し、サンプル・データをロードします。
-
次のコマンドを実行して、ユーザーを設定します(
<password>を実際のパスワードに置き換えます)。
create user ggadmin with password '<password>'; alter user ggadmin with SUPERUSER; GRANT ALL PRIVILEGES ON DATABASE ociggll TO ggadmin; -
-
タスク1: OCI GoldenGateリソースの作成
-
ソースPostgreSQLデータベースのデプロイメントを作成します。
-
ターゲットGoogle BigQueryへの接続を作成します。
-
ソースのPostgreSQLデータベースへの接続を作成します。
-
「タイプ」で、「PostgreSQLサーバー」を選択します。
-
「データベース名」に、
ociggllと入力します。 -
「ホスト」に、PostgreSQLが実行されるコンピュート・インスタンスのパブリックIPを入力します。
-
「ポート」に、
5432と入力します。 -
「ユーザー名」に、
ggadminと入力します。 -
「パスワード」に、パスワードを入力します。
-
「セキュリティ・プロトコル」で、「プレーン」を選択します。
-
タスク2: サプリメンタル・ログの有効化
サプリメンタル・ロギングの有効化の手順:
-
PostgreSQL GoldenGateデプロイメント・コンソールを起動します:
-
「デプロイメント」ページから、PostgreSQLデプロイメントを選択してその詳細を表示します。
-
PostgreSQLデプロイメントの詳細ページで、「コンソールの起動」を選択します。
-
デプロイメント・コンソールのサインイン・ページで、タスク1のステップ1で提供されるGoldenGate管理資格証明を入力します。
ノート:デプロイメントの作成時にIAMが資格証明ストアとして選択されなかった場合は、サインインが必要です。
-
-
デプロイメント・コンソールで、左側のナビゲーションで「DB接続」を選択し、ソースPostgreSQLデータベース、「Trandata」の順に選択します。
-
「TRANDATA」ページの「TRANDATA Information」の横にある「Add TRANDATA」(プラス・アイコン)を選択します。
-
「Trandata」パネルで、「スキーマ名」に
src_ociggllと入力し、「送信」を選択します。ノート:検索フィールドを使用して
src_ociggllを検索し、表が追加されたことを確認します。
タスク3: Extractの作成
チェンジ・データ・キャプチャExtractを追加するには:
-
左側のナビゲーションから、「Extract」を選択します。
-
「Extract」ページで、「Extractの追加」(プラス・アイコン)を選択し、次のようにフィールドに入力します。
-
「Extract Information」ページで、次の手順を実行します。
-
「Extractタイプ」で、「Change Data Capture Extract」を選択します。
-
「プロセス名」に、Extractの名前(
ECDCなど)を入力します。 -
「次へ」を選択します。
-
-
「抽出オプション」ページで、次の手順を実行します。
-
ソース資格証明の場合は、「ドメイン」ドロップダウンから「Oracle GoldenGate」を選択します
-
「別名」ドロップダウンからソースPostgreSQLデータベースを選択します。
-
「Extract Trail Name」に、2文字のトレイル名(
C1など)を入力します。 -
「次へ」を選択します。
-
-
「パラメータ」ページで、
MAP *.*, TARGET *.*;を次のように置き換えます:TABLE SRC_OCIGGLL.*;
-
-
「作成および実行」を選択します。
「Extract」ページに戻り、Extractの開始を確認できます。
タスク4: 変更データ取得のための分散パスの作成
チェンジ・データ・キャプチャの分散パスを作成するには、次の手順を実行します。
-
Oracle Cloudコンソールの「デプロイメント」ページで、ターゲット・ビッグ・データ・デプロイメントを選択します。
-
「分散パスの追加」を選択します。
-
「パスの追加」フォームに次のように入力します。
-
「パス情報」ページで、次の手順を実行します。
-
「パス名」に、名前を入力します。
-
「次へ」を選択します。
-
-
「ソース・オプション」ページで、次の手順を実行します。
-
「ソースExtract」で、チェンジ・データ・キャプチャExtract (
ECDC)を選択します。 -
「トレイル名」で、変更データ取得のトレイル・ファイル(
C1)を選択します。 -
「次へ」を選択します。
-
-
「ターゲット・オプション」ページで、次の手順を実行します。
-
「ターゲット」で、「wss」を選択します。
-
「ターゲット・ホスト」に、ターゲット・デプロイメント・コンソールのURLを入力します(これは、デプロイメントの詳細ページでhttps://または後続のスラッシュなしで確認できます)。
-
「ポート番号」に、
443と入力します。 -
「トレイル名」に、
C1と入力します。 -
「ターゲット認証方式」で、「ユーザーID別名」を選択します。
-
「ドメイン」に、ドメイン名を入力します。
-
「別名」に、別名を入力してください。
-
-
「パスの作成」および「実行」を選択します。
-
タスク5: Replicatの追加
-
ターゲットのビッグ・データ・デプロイメント・コンソールのナビゲーション・メニューで、「Replicat」、「Replicatの追加」(プラス・アイコン)の順に選択します。
-
「Replicat」ページで、「Replicatの追加」(プラス・アイコン)を選択し、次のように「Replicatの追加」フォームに入力します。
-
「Replicat情報」ページで、次の手順を実行します。
-
「Replicatタイプ」で、「パラレル」または「調整Replicat」を選択します。
-
「プロセス名」に、名前(
RCDCなど)を入力します。 -
「次へ」を選択します。
-
-
「Replicatオプション」ページで、次の手順を実行します。
-
「Replicatトレイル名」に、タスク3からのトレイルの名前(
C1)を入力します。 -
「ターゲット資格証明」で、Google Big Query接続の「ドメイン」および「別名」を選択します。
-
「使用可能なステージングの場所」で、ドロップダウンから「Google Cloud Storage」を選択します。
-
「ステージング別名を使用」で、ドロップダウンからGoogle Cloud Storage接続を選択します。
-
-
「パラメータ・ファイル」ページで、次のマッピングを追加し、「次へ」を選択します。
MAP *.*, TARGET *.*; -
「プロパティ・ファイル」ページで、必要に応じて必要なプロパティを構成します。
#TODOとマークされているものを探し、「次へ」を選択します。変更を検討する必要があるプロパティには次が含まれます:
gg.eventhandler.gcs.bucketMappingTemplate: ステージング記憶域として使用されるバケットの名前を指定します
-
-
「作成および実行」を選択します。
「Replicat」ページに戻り、Replicatの詳細を確認できます。
タスク6: 変更データ取得の確認
ソースPostgreSQLデータベースに対する更新を実行して、Google BigQueryへのレプリケーションを確認します。
-
次のスクリプトを実行して、PostgreSQLデータベースへの挿入を実行します。
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581); Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002); -
ソースのPostgreSQLデプロイメント・コンソールで、Extract名(
ECDC)を選択し、「統計」を選択します。src_ociggll.src_cityに10個の挿入があることを確認します。ノート: Extractで挿入が行われなかった場合は、
ECDCExtractを再起動します。 -
ターゲットのビッグ・データ・デプロイメント・コンソールで、Replicat名を選択し、その「詳細」を表示し、「統計」を選択して挿入数を確認します。