Daten von PostgreSQL in Google BigQuery replizieren

Bevor Sie beginnen

Um diesen Schnellstart erfolgreich abzuschließen, benötigen Sie Folgendes:

Eine PostgreSQL-Installation, die als Quelldatenbank dient (Installationsanweisungen folgen im Umgebungssetup).
Öffnen Sie Port 5432 in der Sicherheitsliste des VCN.
Verbindung zu Google Cloud Storage erstellen.

Hinweis:
Stellen Sie sicher, dass der GCS-Bucket und das BigQuery-Dataset in demselben Speicherort/in derselben Region vorhanden sind.
Google Cloud Service-Accountschlüssel.
Berechtigungen für Google Cloud Platform BigQuery.

Umgebung einrichten: PostgreSQL

So richten Sie die Umgebung für diesen Schnellstart ein:

Führen Sie die folgenden Befehle aus, um PostgreSQL zu installieren.
1. Installieren Sie den PostgreSQL-Server:
```
sudo yum install postgresql-server
```
2. Installieren Sie das postgresql-contrib-Modul, um diese SQL-Ausnahme zu vermeiden:
```
sudo yum install postgresql-contrib
```
3. Erstellen Sie ein neues PostgreSQL-Datenbankcluster:
```
sudo postgresql-setup --initdb
```
4. Aktivieren Sie postgresql.service:
```
sudo systemctl enable postgresql.service
```
5. Starten Sie postgresql.service:
```
sudo systemctl start postgresql.service
```
Standardmäßig lässt PostgreSQL nur lokale Verbindungen zu. Remotekonnektivität zu PostgreSQL zulassen.
1. Bereiten Sie die Datenbank in /var/lib/pgsql/data/postgresql.conf für die Replikation vor.
2. Suchen und entfernen Sie die Kommentarzeichen für listen_addresses = 'localhost', und ändern Sie localhost in ein Sternchen (*):
```
listen_addresses = '*'
```
3. Legen Sie die folgenden Parameter folgendermaßen fest:
  - wal_level = logical
  - max_replication_slots = 1
  - max_wal_senders = 1
  - track_commit_timestamp = on
  Hinweis:
  Konfigurieren Sie /var/lib/pgsql/data/pg_hba.conf, um sicherzustellen, dass die Clientauthentifizierung so festgelegt ist, dass Verbindungen von einem Oracle GoldenGate-Host zulässig sind. Beispiel: Fügen Sie Folgendes hinzu:
```
#Allow connections from remote hosts
host    all    all    0.0.0.0/0    md5
```
  Weitere Informationen finden Sie unter Datei pg_hba.conf.
4. Starten Sie den PostgreSQL-Server neu:
```
sudo systemctl restart postgresql.service
```

Wenn Sie PostgreSQL mit Oracle Cloud Compute hosten, öffnen Sie Port 5432:

sudo firewall-cmd --permanent --add-port=5432/tcp
sudo firewall-cmd --reload
sudo firewall-cmd --list-all

Öffnen Sie Port 5432 in der Sicherheitsliste des VCN.
Stellen Sie eine Verbindung zu PostgreSQL her.
```
> sudo su - postgres
> psql
```
Hinweis:
Alternativ können Sie sudo su - postgres psql eingeben, wenn das obige Beispiel nicht funktioniert.
Richten Sie PostgreSQL ein.
1. Laden Sie seedSRCOCIGGLL_PostgreSQL.sql herunter, und führen Sie es aus, um die Datenbank einzurichten und die Beispieldaten zu laden.
2. Führen Sie die folgenden Befehle aus, um den Benutzer einzurichten (stellen Sie sicher, dass Sie <password> durch ein tatsächliches Kennwort ersetzen):
```
create user ggadmin with password '<password>';
alter user ggadmin with SUPERUSER;
GRANT ALL PRIVILEGES ON DATABASE ociggll TO ggadmin;
```

Aufgabe 1: OCI GoldenGate-Ressourcen erstellen

Erstellen Sie ein Deployment für die Quelldatenbank PostgreSQL.
Erstellen Sie ein Big Data Deployment für das Ziel Google BigQuery.
Erstellen Sie eine Verbindung zum Ziel Google BigQuery.
Erstellen Sie eine Verbindung zur PostgreSQL-Quelldatenbank.
1. Wählen Sie unter Typ die Option PostgreSQL Server aus.
2. Geben Sie unter Datenbankname ociggll ein.
3. Geben Sie unter Host die öffentliche IP der Compute-Instanz ein, auf der PostgreSQL ausgeführt wird.
4. Geben Sie unter Port die Nummer 5432 ein.
5. Geben Sie unter Benutzername ggadmin ein.
6. Geben Sie unter Kennwort ein Kennwort ein.
7. Wählen Sie unter Sicherheitsprotokoll die Option Einfach aus.
Erstellen Sie eine Verbindung zu GoldenGate, und weisen Sie diese Verbindung dann dem Deployment der Quelle PostgreSQL zu.
Weisen Sie die Quellverbindung dem Deployment der Quelle PostgreSQL zu..
Weisen Sie die Zielverbindung dem Big Data-Ziel-Deployment zu.

Aufgabe 2: Zusätzliches Logging aktivieren

So aktivieren Sie zusätzliches Logging:

Starten Sie die PostgreSQL GoldenGate-Deployment-Konsole:
1. Wählen Sie auf der Seite "Deployments" das PostgreSQL-Deployment aus, um die zugehörigen Details anzuzeigen.
2. Klicken Sie auf der Seite mit den Details des Deployments PostgreSQL auf Konsole starten.
3. Geben Sie auf der Anmeldeseite der Deployment-Konsole die in Aufgabe 1, Schritt 1 angegebenen Admin-Zugangsdaten GoldenGate ein.
Klicken Sie in GoldenGate 23ai in der linken Navigation auf DB-Verbindungen, dann auf die Quelldatenbank PostgreSQL und dann auf Trandata.
Klicken Sie auf der Seite "TRANDATA" neben "TRANDATA-Informationen" auf TRANDATA hinzufügen (Plussymbol).
Geben Sie im Trandata-Bereich unter Schemaname src_ociggll.* ein, und klicken Sie auf Weiterleiten.

Hinweis:
Suchen Sie src_ociggll mit dem Suchfeld, und prüfen Sie, ob die Tabellen hinzugefügt wurden.

Aufgabe 3: Extract erstellen

So fügen Sie die Change Data Capture Extract hinzu:

Klicken Sie in der linken Navigationsleiste auf Extrakte.
Klicken Sie auf der Seite Extrakte auf Extrahieren hinzufügen (Plussymbol), und füllen Sie die Felder wie folgt aus:
- Gehen Sie auf der Seite "Daten extrahieren" wie folgt vor:
  1. Wählen Sie unter Extract-Typ die Option Change Data Capture Extract aus.
  2. Geben Sie unter Prozessname einen Namen wie ECDC für den Extrakt ein.
  3. Klicken Sie auf Weiter.
- Gehen Sie auf der Seite Optionen extrahieren wie folgt vor:
  1. Wählen Sie unter "Quellzugangsdaten" in der Dropdown-Liste Domain die Option Oracle GoldenGate aus
  2. Wählen Sie die Quelldatenbank PostgreSQL in der Dropdown-Liste Alias aus.
  3. Geben Sie unter Extrahieren einen aus zwei Zeichen bestehenden Trailnamen wie C1 ein.
  4. Klicken Sie auf Weiter.
- Ersetzen Sie auf der Seite Extract-Parameter MAP *.*, TARGET *.*; durch Folgendes:
```
TABLE SRC_OCIGGLL.*;
```
Klicken Sie auf Erstellen und ausführen.

Sie kehren zur Seite Extracts zurück, auf der Sie den Start von Extracts beobachten können.

Aufgabe 4: Distribution Path für Change Data Capture erstellen

Gehen Sie folgendermaßen vor, um eine Distribution Path für Change Data Capture zu erstellen:

Wählen Sie in der Oracle Cloud-Konsole auf der Seite "Deployments" das Ziel-Big Data-Deployment aus.
Klicken Sie auf der Seite "Deployment" auf Konsole starten. Melden Sie sich mit den Details des Admin-Benutzers an, die in Aufgabe 1, Schritt 2 erstellt wurden.
Wenn Sie den IAM-Zugangsdatenspeicher verwenden, fahren Sie mit dem Schritt "Distribution Path erstellen" fort. Wenn Sie den Zugangsdatenspeicher GoldenGate verwenden, erstellen Sie einen Benutzer, mit dem die Quelle GoldenGate eine Verbindung zum Ziel GoldenGate herstellt.
1. Klicken Sie im Navigationsmenü auf Benutzerverwaltung.
2. Klicken Sie wie folgt auf Neuen Benutzer hinzufügen (Pluszeichen), füllen Sie die Felder aus, und klicken Sie auf Weiterleiten:
  - Geben Sie unter Benutzername ggsnet ein.
  - Wählen Sie unter Rolle die Option Operator aus.
  - Geben Sie das Kennwort zur Bestätigung zweimal ein.
Erstellen Sie in der Deployment-Konsole für die Quelle PostgreSQL eine Pfadverbindung für den Benutzer, der im vorherigen Schritt erstellt wurde.
1. Klicken Sie im Navigationsmenü auf Pfadverbindungen.
2. Klicken Sie auf Pfadverbindung hinzufügen (Pluszeichen), füllen Sie die Felder wie folgt aus, und klicken Sie auf Weiterleiten:
  - Geben Sie als Zugangsdatenalias dpuser ein.
  - Geben Sie unter "Benutzer-ID" ggsnet ein.
  - Geben Sie unter "Kennwort" dasselbe Kennwort ein, das im vorherigen Schritt verwendet wurde.
Klicken Sie auf Distribution Path hinzufügen.
Füllen Sie das Formular "Pfad hinzufügen" wie folgt aus:
1. Auf der Seite "Pfadinformationen":
  1. Geben Sie unter Pfadname einen Namen ein.
  2. Klicken Sie auf Weiter.
2. Gehen Sie auf der Seite {\b Source Options} wie folgt vor:
  1. Wählen Sie unter Quelle Extract die Option Change Data Capture Extract (ECDC)) aus.
  2. Wählen Sie unter Trailname die Traildatei Change Data Capture (C1) aus.
  3. Klicken Sie auf Weiter.
3. Gehen Sie auf der Seite "Zieloptionen" wie folgt vor:
  1. Wählen Sie unter Ziel die Option wss aus.
  2. Geben Sie unter Zielhost die Ziel-Deployment-Konsolen-URL ein (diese finden Sie auf der Seite mit den Deployment-Details, ohne https:// oder abschließende Schrägstriche).
  3. Geben Sie unter Portnummer die Nummer 443 ein.
  4. Geben Sie unter Trailname C1 ein.
  5. Wählen Sie unter Zielauthentifizierungsmethode die Option UserID Alias aus.
  6. Geben Sie unter Domain den Domainnamen ein.
  7. Geben Sie unter Alias den Alias ein.
4. Klicken Sie auf Pfad erstellen und ausführen.
Klicken Sie in der Ziel-Deployment-Konsole von Big Data auf Receiver Service, und prüfen Sie den erstellten Receiver Path.

Aufgabe 5: Replicat hinzufügen

Klicken Sie im Navigationsmenü der Ziel-Big Data-Deployment-Konsole auf Replicats und dann auf Replicat hinzufügen (Plussymbol).
Klicken Sie auf der Seite Replicats auf Replicat hinzufügen (Plussymbol), und füllen Sie das Formular Replicat hinzufügen wie folgt aus:
1. Auf der Seite Replicat-Informationen:
  1. Wählen Sie unter Typ Replicat die Option Parallel oder Coordinated Replicat aus.
  2. Geben Sie unter Prozessname einen Namen wie RCDC ein.
  3. Klicken Sie auf Weiter.
2. Auf der Seite Replicat Optionen:
  1. Geben Sie unter Replicat Trailname den Namen des Trail aus Aufgabe 3 (C1) ein.
  2. Wählen Sie unter Zielzugangsdaten die Domain und den Alias für die Google Big Query-Verbindung aus.
  3. Wählen Sie unter Verfügbare Staging Areas in der Dropdown-Liste die Option "Google Cloud Storage" aus.
  4. Wählen Sie unter über Staging-Alias die Option "Google Cloud Storage-Verbindung" aus der Dropdown-Liste aus.
3. Fügen Sie auf der Seite "Parameterdatei" die folgende Zuordnung hinzu, und klicken Sie auf "Weiter":
```
MAP *.*, TARGET *.*;
```
4. Konfigurieren Sie auf der Seite "Eigenschaftendatei" die erforderlichen Eigenschaften nach Bedarf. Suchen Sie nach den als #TODO markierten, und klicken Sie auf Weiter.
  Beispiele für eventuell zu ändernde Eigenschaften:
  - gg.eventhandler.gcs.bucketMappingTemplate: Geben Sie den Namen des Buckets an, der als Staging-Speicher verwendet wird
Klicken Sie auf Erstellen und ausführen.

Sie kehren zur Seite Replicats zurück, auf der Sie die Replicat-Details prüfen können.

Aufgabe 6: Prüfen Sie Change Data Capture.

Führen Sie Updates für die Quelldatenbank PostgreSQL aus, um die Replikation in Google BigQuery zu prüfen.

Führen Sie das folgende Skript aus, um Einfügungen in die Datenbank PostgreSQL auszuführen:

Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
Insert into src_ociggll.src_city (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);

Wählen Sie in der Deployment-Konsole für die PostgreSQL-Quelle den Namen Extract (EDCD) aus, und klicken Sie auf Statistiken. Stellen Sie sicher, dass unter src_ociggll.src_city 10 Insert-Vorgänge vorhanden sind.

Hinweis:
Wenn die Extract keine Einfügungen erfasst hat, starten Sie die EDCD Extract neu.
Wählen Sie in der Big Data-Ziel-Deployment-Konsole den Namen Replicat aus, zeigen Sie die zugehörigen Details an, und prüfen Sie die Anzahl der Einfügungen anhand der Statistiken.