將資料從 PostgreSQL 複製到 Google BigQuery

瞭解如何使用 OCI GoldenGate 將資料從 PostgreSQL 複製到 Google BigQuery

開始之前

若要順利完成此快速輸入,您必須具有下列項目:

環境設置:PostgreSQL

設定此「快速啟動」的環境:
  1. 執行下列指令以安裝 PostgreSQL
    1. 安裝 PostgreSQL 伺服器:
      sudo yum install postgresql-server
    2. 安裝 postgresql-contrib 模組,以避免此 SQL 異常狀況
      sudo yum install postgresql-contrib
    3. 建立新的 PostgreSQL 資料庫叢集:
      sudo postgresql-setup --initdb
    4. 啟用 postgresql.service:
      sudo systemctl enable postgresql.service
    5. 啟動 postgresql.service:
      sudo systemctl start postgresql.service
  2. 依照預設,PostgreSQL 僅允許本機連線。允許遠端連線至 PostgreSQL
    1. /var/lib/pgsql/data/postgresql.conf 中,準備要複製的資料庫
    2. 尋找和取消註釋 listen_addresses = 'localhost',並將 localhost 變更為星號 (*):
      listen_addresses = '*'
    3. 請依下列方式設定下列參數:
      • wal_level = logical
      • max_replication_slots = 1
      • max_wal_senders = 1
      • track_commit_timestamp = on

      附註:

      設定 /var/lib/pgsql/data/pg_hba.conf 以確保從屬端認證設為允許來自 Oracle GoldenGate 主機的連線。例如,新增下列項目:
      #Allow connections from remote hosts
      host    all    all    0.0.0.0/0    md5
      如需詳細資訊,請參閱 pg_hba.conf 檔案
    4. 重新啟動 PostgreSQL 伺服器:
      sudo systemctl restart postgresql.service
  3. 如果使用 Oracle Cloud Compute 來代管 PostgreSQL,請開啟連接埠 5432:
    sudo firewall-cmd --permanent --add-port=5432/tcp
    sudo firewall-cmd --reload
    sudo firewall-cmd --list-all
  4. 在 VCN 的安全清單中開啟連接埠 5432。
  5. 連線至 PostgreSQL
    > sudo su - postgres
    > psql

    附註:

    或者,如果上述範例沒有作用,您可以輸入 sudo su - postgres psql
  6. 設定 PostgreSQL。
    1. 下載並執行 seedSRCOCIGGLL_PostgreSQL.sql 以設定資料庫並載入範例資料。
    2. 執行下列命令以設定使用者 (請確定以實際密碼取代 <password>):
      create user ggadmin with password '<password>';
      alter user ggadmin with SUPERUSER;
      GRANT ALL PRIVILEGES ON DATABASE ociggll TO ggadmin;

工作 1:建立 OCI GoldenGate 資源

  1. 為來源 PostgreSQL 資料庫建立部署
  2. 為目標 Google BigQuery 建立大數據部署
  3. 建立目標 Google BigQuery 的連線。
  4. 建立與來源 PostgreSQL 資料庫的連線。
    1. 如果是類型,請確定選取 PostgreSQL 伺服器。
    2. 如果是資料庫名稱,請輸入 ociggll
    3. 若為主機,請輸入執行 PostgreSQL 之運算執行處理的公用 IP。
    4. 對於連接埠,輸入 5432
    5. 使用者名稱中,輸入 ggadmin
    6. 對於密碼,輸入密碼。
    7. 對於安全協定,請選取純文字
  5. 建立與 GoldenGate 的連線,然後將此連線指派給來源 PostgreSQL 部署
  6. 將來源連線指派給來源 PostgreSQL 部署。
  7. 將目標連線指派給目標大數據部署

作業 2:啟用補充記錄日誌

若要啟用補充記錄日誌,請執行下列動作:
  1. 啟動 PostgreSQL GoldenGate 部署主控台:
    1. 從「部署」頁面,選取 PostgreSQL 部署以檢視其詳細資訊。
    2. 在 PostgreSQL 部署詳細資訊頁面上,按一下啟動主控台
    3. 在部署主控台登入頁面上,輸入「任務 1」步驟 1 中提供的 GoldenGate 管理憑證。
  2. 在 GoldenGate 23ai 中,依序按一下左側導覽中的資料庫連線、來源 PostgreSQL 資料庫,然後按一下 Trandata
  3. 在 TRANDATA 頁面的「TRANDATA 資訊」旁邊,按一下新增 TRANDATA (加號圖示)。
  4. 在「交易資料」面板中,針對結構名稱,輸入 src_ociggll.*,然後按一下提交

    附註:

    使用搜尋欄位來搜尋 src_ociggll,並確認已新增表格。

工作 3:建立 Extract

若要新增 Change Data Capture Extract,請執行下列動作:
  1. 在左側導覽中,按一下擷取
  2. 擷取頁面上,按一下新增擷取 (加號圖示),然後完成下列欄位:
    • 在「摘錄資訊」頁面上:
      1. 對於擷取類型,請選取 Change Data Capture Extract
      2. 程序名稱中,輸入擷取的名稱,例如 ECDC
      3. 按一下下一步
    • 擷取選項頁面上:
      1. 若為「來源」證明資料,請從網域下拉式清單中選取 Oracle GoldenGate
      2. 別名下拉式清單中選取來源 PostgreSQL 資料庫。
      3. 擷取歷程檔名稱中,輸入兩個字元的歷程檔名稱,例如 C1
      4. 按一下下一步
    • 擷取參數頁面中,以下列項目取代 MAP *.*, TARGET *.*;
      TABLE SRC_OCIGGLL.*;
  3. 按一下建立並執行

    您會返回 Extracts 頁面,您可以在其中監測 Extracts 的啟動。

工作 4:為 Change Data Capture 建立 Distribution Path

若要為 Change Data Capture 建立 Distribution Path,請完成下列步驟:

  1. 在 Oracle Cloud 主控台的「部署」頁面上,選取目標大數據部署。
  2. 在部署詳細資訊頁面上,按一下啟動主控台。使用在作業 1 步驟 2 中建立的管理員使用者詳細資訊登入。
  3. 如果使用 IAM 證明資料存放區,請繼續進行「建立 Distribution Path」步驟。如果使用 GoldenGate 證明資料存放區,請建立來源 GoldenGate 用來連線目標 GoldenGate 的使用者。
    1. 在導覽功能表中,按一下使用者管理
    2. 按一下新增使用者 (加號圖示),依下列方式完成欄位,然後按一下送出
      • 使用者名稱中,輸入 ggsnet
      • 對於角色,請選取運算子
      • 輸入兩次密碼來進行驗證。
  4. 在來源 PostgreSQL 部署主控台中,為上一個步驟中建立的使用者建立「路徑」連線。
    1. 在瀏覽功能表中,按一下路徑連線
    2. 按一下新增路徑連線 (加號圖示),依下列方式完成欄位,然後按一下送出
      • 若為「證明資料別名」,請輸入 dpuser
      • 針對「使用者 ID」,輸入 ggsnet
      • 若為「密碼」,請輸入上一個步驟中使用的相同密碼。
  5. 按一下新增 Distribution Path
  6. 依下述完成「新增路徑」表單:
    1. 在「路徑資訊」頁面上:
      1. 針對路徑名稱,輸入名稱。
      2. 按一下下一步
    2. 在「來源選項」頁面上:
      1. 來源 Extract 中,選取 Change Data Capture Extract (ECDC))。
      2. 歷程檔名稱中,選取 Change Data Capture 歷程檔 (C1)。
      3. 按一下下一步
    3. 在「目標選項 (Target Options)」頁面上:
      1. 目標中,選取 wss
      2. 目標主機中,輸入目標部署主控台 URL (您可以在部署詳細資料頁面上找到此 URL,而不使用 https:// 或任何尾端斜線。
      3. 對於連接埠號碼,請輸入 443
      4. 歷程檔名稱中,輸入 C1
      5. 目標驗證方法中,選取 UserID 別名
      6. 網域中,輸入網域名稱。
      7. 針對別名,輸入別名。
    4. 按一下建立路徑並執行
  7. 目標大數據部署主控台中,按一下 Receiver Service ,然後複查建立的 Receiver Path

工作 5:新增 Replicat

  1. 目標大數據部署主控台導覽功能表中,按一下 Replicats ,然後按一下新增 Replicat (加號圖示)。
  2. Replicats 頁面上,按一下新增 Replicat (加號圖示),然後完成新增 Replicat 表單,如下所示:
    1. Replicat 資訊頁面上:
      1. 對於 Replicat 類型,請選取 ParallelCoordinated Replicat
      2. 針對程序名稱,輸入名稱,例如 RCDC
      3. 按一下下一步
    2. 在「Replicat 選項」頁面上:
      1. Replicat 歷程檔名稱中,輸入工作 3 的歷程檔名稱 (C1)。
      2. 若為目標證明資料,請選取 Google Big Query 連線的網域別名
      3. 若為可用的暫存位置,請從下拉式清單中選取 Google Cloud Storage。
      4. 若為透過暫存別名,請從下拉式清單中選取 Google Cloud Storage 連線。
    3. 在「參數檔 (Parameter File)」頁面上新增下列對應,然後按一下「下一步 (Next)」:
      MAP *.*, TARGET *.*;
    4. 在「特性檔」頁面上,視需要設定必要的特性。尋找標示為 #TODO 的項目,然後按一下下一步
      要考慮修改的部分特性包括:
      • gg.eventhandler.gcs.bucketMappingTemplate:提供將作為暫存儲存的儲存桶名稱
  3. 按一下建立並執行

    您會返回 Replicats 頁面,您可以在此複查 Replicat 詳細資訊。

工作 6:驗證 Change Data Capture

執行來源 PostgreSQL 資料庫的更新,以驗證複製至 Google BigQuery。
  1. 執行下列命令檔以執行 PostgreSQL 資料庫的插入:
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
    Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);
  2. 在來源 PostgreSQL 部署主控台中,選取 Extract 名稱 (EDCD),然後按一下統計資料。確認 src_ociggll.src_city 有 10 個插入項目。

    附註:

    如果 Extract 未擷取插入,請重新啟動 EDCD Extract
  3. 在目標「大數據」部署主控台中,選取 Replicat 名稱、檢視其詳細資訊,然後勾選統計資料以驗證插入數目。