Harvesting aus Oracle Object Storage

Harvesting ist ein Prozess, bei dem technische Metadaten aus den Datenassets in den Datenkatalog extrahiert werden. Ein Datenasset ist eine Datenquelle. Zum Beispiel kann es eine Datenbank, ein Objektspeicher, ein Datei- oder Dokumentspeicher, eine Nachrichtenqueue oder eine Anwendung sein.

In diesem Tutorial führen Sie die folgenden Aktionen aus:

  1. Erlauben Sie, dass Data Catalog auf beliebige Objekte in Oracle Object Storage in beliebigen Buckets und in beliebigen Compartments innerhalb des Mandanten zugreift, in dem die Policy erstellt wird.
  2. Erstellen Sie ein Oracle Object Storage-Datenasset.
  3. Fügen Sie eine Standardverbindung für das Datenasset hinzu.
  4. Führen Sie das Harvesting des Datenasset aus, indem Sie die Ausführung des Harvesting-Jobs sofort starten.
Wichtig

Sie können für Object Storage-Dateien das Harvesting als logische Datenentitys durchführen.

Bevor Sie beginnen

Um dieses Tutorial erfolgreich ausführen zu können, benötigen Sie Folgendes:

1. Zugriffs-Policy erstellen

Sie erstellen eine Policy, mit der Data Catalog der Zugriff auf Ihre Object Storage-Ressourcen erteilt wird.

Sie benötigen mindestens die READ-Berechtigung für jeden der Ressourcentypen objectstorage-namespaces, buckets und objects oder für den aggregierten Object Storage-Ressourcentyp object-family.

So erstellen Sie eine Zugriffs-Policy zum Erteilen der Berechtigung READ für den aggregierten Object Storage-Ressourcentyp object-family:

  1. Öffnen Sie das Navigationsmenü , und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
  2. Wählen Sie auf der Seite Policys die Option Policy erstellen aus.
  3. Geben Sie im Bereich Policy erstellen die folgenden Details ein:
    • Name: Geben Sie einen eindeutigen Namen für die Policy ein. Der Name muss in allen Policys Ihres Mandanten eindeutig sein. Sie können den Namen später nicht ändern. Beispiel: data-catalog-dynamic-group.
    • Beschreibung: Geben Sie eine Beschreibung ein, z.B. Zugriff auf Objektspeicherressourcen in einem beliebigen Compartment im Mandanten erteilen.
    • Compartment: Wählen Sie ein Compartment aus, in dem Sie die Policy erstellen möchten.
    • Policy Builder: Setzen Sie in diesem Abschnitt den Regler auf Manuellen Editor anzeigen, und geben Sie die Policy-Regel ein. Beispiel: Geben Sie für die dynamische Gruppe data-catalog-dynamic-group die folgende Policy-Regel ein:
      allow dynamic-group data-catalog-dynamic-group to read object-family in tenancy
      Hinweis

      Diese Policy ermöglicht den Zugriff auf alle Objekte in allen Buckets und Compartments im Mandanten, in dem die Policy erstellt wird. Weitere Beispiele finden Sie unter Policy-Beispiele.
  4. Klicken Sie auf Erstellen.
Sie haben die Policy erfolgreich erstellt, mit der Data Catalog der Zugriff auf alle Oracle Object Storage-Ressourcen erteilt wird.

2. Datenasset erstellen

Nun können Sie die Oracle Object Storage-Datenquellen bei Data Catalog als Datenasset registrieren.

So erstellen Sie ein Oracle Object Storage-Datenasset:

  1. Öffnen Sie das Navigationsmenü , und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Data Catalog aus.
  2. Klicken Sie auf die Data Catalog-Instanz, in der Sie das Datenasset erstellen möchten.
  3. Wählen Sie auf Ihrer Homepage für die Data Kataloginstanz in der Kachel Schnellaktionen die Option Datenasset erstellen.
    Hinweis

    Nachdem Sie eine Datenkataloginstanz erstellt haben, wird beim erstmaligen Zugriff auf die Registerkarte "Home" die Schaltfläche Datenasset erstellen in der Kachel Datenassets angezeigt.
  4. Geben Sie im Bereich Datenasset erstellen die Details wie in der folgenden Tabelle beschrieben ein:
    Feld Beschreibung
    Name

    Geben Sie einen eindeutigen Namen für das Datenasset ein. Sie können den Namen später bearbeiten.

    Folgende Sonderzeichen sind im Namen nicht zulässig:

    & < > " ' / \ = ;

    Name ist ein durchsuchbares Feld in Data Catalog.

    Beschreibung Geben Sie den Zweck oder das Ziel für das Erstellen dieses Datenassets an.
    Typ Wählen Sie Oracle Object Storage aus.
    URL Geben Sie die Swift-URI für die Oracle Object Storage-Ressource im folgenden Format ein: https://swiftobjectstorage.<region-identifier>.oraclecloud.com

    Beispiel:

    https://swiftobjectstorage.us-phoenix-1.oraclecloud.com/
    Namespace Geben Sie den Object Storage-Namespace für die angegebene Oracle Cloud Infrastructure Object Storage-Ressource ein.

    Um den Object Storage-Namespace-Zeichenfolge in der Konsole anzuzeigen, wählen Sie im Menü Profil die Option Mandant:<your_tenancy_name> aus. Der Namespace wird unter Object Storage-Einstellungen aufgeführt.

  5. Klicken Sie auf Erstellen.
Sie haben erfolgreich ein Oracle Object Storage-Datenasset erstellt.

3. Verbindung hinzufügen

Nachdem Sie das Oracle Object Storage-Datenasset erstellt haben, erstellen Sie eine Verbindung für das Datenasset.

So fügen Sie eine Verbindung für das Oracle Object Storage-Datenasset hinzu:

  1. Wählen Sie auf der Registerkarte "Home" Datenassets aus.
  2. Wählen Sie in der Liste "Datenassets" das erstellte Oracle Object Storage-Datenasset aus.
  3. Klicken Sie auf der Seite mit den Datenassetdetails auf die Registerkarte "Übersicht" unter "Verbindungsinformationen" unter Verbindung hinzufügen.
  4. Geben Sie im Bereich Verbindung hinzufügen die Details wie in der folgenden Tabelle beschrieben ein:
    Feld Beschreibung
    Name Geben Sie einen eindeutigen Namen für die Verbindung ein.
    Beschreibung Geben Sie eine kurze Beschreibung für die Verbindung ein.
    Typ Wählen Sie eine der folgenden Optionen aus:
    • Resource Principal: Dies ist der empfohlene Verbindungstyp. Bevor Sie für das Oracle Object Storage-Datenasset eine Resource-Principal-Verbindung erstellen, müssen Sie eine Policy erstellen, mit der Data Catalog der Zugriff auf die Object Storage-Ressource erteilt wird.
    • Vorauthentifizierte Anforderung: Wählen Sie diesen Verbindungstyp aus, um ein Harvesting für einen öffentlichen oder privaten Objektspeicher-Bucket auszuführen, für den Sie über eine vorab authentifizierte Anforderung Zugriff haben. Wenn Sie diesen Verbindungstyp auswählen, wird das Feld URL der vorab authentifizierten Anforderung angezeigt. Geben Sie die URL der vorab authentifizierten Anforderung ein, um auf den Objektspeicher-Bucket zuzugreifen. Weitere Informationen zur Verwendung dieses Verbindungstyps finden Sie unter Vorab authentifizierte Anforderungen verwenden.
    OCI-Region Geben Sie die Regions-ID für die Object Storage-Ressource ein.

    Um die Region-ID für Ihre Region in der Konsole anzuzeigen, wählen Sie im Menü "Profil" die Option Mandant: <your_tenancy_name>. Wählen Sie im Informationsbanner Regionen verwalten die Option Regionen verwalten aus. Die Regionsnamen und Regions-IDs werden angezeigt.

    Compartment Wählen Sie das Compartment für Ihre Object Storage-Ressource aus.

    Um das Compartment anzuzeigen, öffnen sie in der Console das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Compartments aus. Klicken Sie auf den Compartment-Link für die Object Storage-Ressource. Kopieren Sie die OCID in der Registerkarte Compartment-Informationen auf der Seite Compartment-Details.

    Legen Sie diese Verbindung als Standardverbindung für das Datenasset fest. Aktivieren Sie dieses Kontrollkästchen, um diese Verbindung zur Standardverbindung für das Datenasset zu machen.
    Verbindung testen Klicken Sie auf die Schaltfläche, um die Verbindung zu testen.
  5. Klicken Sie auf Hinzufügen.

4. Harvesting des Datenassets ausführen

Sie können für Ihr Oracle Object Storage-Datenasset jetzt ein Harvesting ausführen.

So führen Sie für das Oracle Object Storage-Datenasset ein Harvesting aus:

  1. Wählen Sie auf der Seite mit den Datenassetdetails Harvesting aus.
    Die Seite Verbindung auswählen wird mit der ausgewählten Standardverbindung angezeigt.
  2. Klicken Sie auf Weiter.
    Die Seite Datenentitys auswählen wird angezeigt.
  3. Fügen sie im Abschnitt Verfügbarer Bucket die Datenentitys hinzu, für die Sie ein Harvesting ausführen möchten. Um eine Datenentity hinzuzufügen, wählen Sie daneben das Symbol "Hinzufügen". Um ein Harvesting für alle Datenentitys auszuführen, wählen Sie Alle hinzufügen aus.
    Auf dieser Seite können Sie folgende andere Vorgänge ausführen:
    • Im Feld Bucket/Datenentitäten filtern können Sie eine Datenentity in den verfügbaren Datenentitys suchen.
    • Verwenden Sie die Symbole zur Seitennavigation, um alle Datenentitys zu durchsuchen.
    • Um eine ausgewählte Datenentity aus dem Harvesting-Job zu entfernen, wählen Sie neben der Datenentity das Symbol "Entfernen".
    • Um alle ausgewählten Datenentitys zu entfernen, wählen Sie Alle entfernen.
  4. Klicken Sie auf Weiter.
    Die Seite Job erstellen wird angezeigt.
  5. Führen Sie auf dieser Seite die folgenden Aktionen aus:
    1. Jobname: Geben Sie einen eindeutigen Namen für den Erntejob ein.
    2. Jobbeschreibung: Geben Sie eine Beschreibung ein.
    3. Inkrementelles Harvesting: Wählen Sie dieses Kontrollkästchen, wenn bei späteren Ausführungen dieses Harvestin-Jobs nur die Datenentitys erstellt werden soll, die sich seit der ersten Ausführung des Harvestin-Jobs geändert haben.
    4. Nicht erkannte Dateien einschließen: Wählen Sie dieses Kontrollkästchen aus, um für ein Harvesting eine logische Datenentity auszuführen, die nur archivierte Dateien besteht, oder für andere Dateien, die in Data Catalog nicht unterstützt werden. Beispiel: .log, .txt, .sh, .jar und .pdf.
    5. Nur übereinstimmende Dateien einbeziehen: Aktivieren Sie dieses Kontrollfeld, wenn Data Catalog nur ein Harvesting für die Dateien ausführen soll, die mit den zugewiesenen Dateinamensmustern übereinstimmen. Wenn Sie dieses Kontrollkästchen aktivieren, werden die Dateien, die nicht mit den zugewiesenen Dateinamensmustern übereinstimmen, während des Harvestings ignoriert. Sie wurden der Anzahl der übersprungenen Dateien hinzugefügt.
    6. Ausführungszeit: Wählen Sie in diesem Abschnitt eine der folgenden Optionen aus:
      • Job jetzt ausführen: Erstellt einen Harvesting-Job und führt ihn sofort aus.
      • Joblauf planen: Zeigt weitere Felder zur Planung des Harvesting-Jobs an. Geben Sie einen Namen und eine Beschreibung für den Ausführungsplan ein. Geben Sie an, wie oft der Job ausgeführt werden soll. Die Optionen lauten "Stündlich", "Täglich", "Wöchentlich" und "Monatlich". Als Letztes wählen Sie die Start- und Endzeit für den Job aus.
      • Jobkonfigurationen für später speichern: Erstellt einen Harvesting-Job für das Data Asset, der Job wird jedoch nicht ausgeführt. Sie können den Job später auf der Seite "Jobs" ausführen oder planen.
  6. Wählen Sie Job erstellen aus.
    Der Job für das Harvesting des Oracle Object Storage-Datenassets wurde erfolgreich erstellt. Der Job wird auf der Seite Jobs aufgeführt.
Für das Datenasset wird je nach ausgewähltem Zeitplan erfolgreich ein Harvesting ausgeführt. Sie können den Details des Harvesting-Jobs prüfen, indem Sie den Jobnamen auf der Seite Jobs auswählen.