Harvesting aus Oracle Object Storage

Harvesting ist ein Prozess, bei dem technische Metadaten aus den Datenassets in den Datenkatalog extrahiert werden. Ein Datenasset ist eine Datenquelle. Zum Beispiel kann es eine Datenbank, ein Objektspeicher, ein Datei- oder Dokumentspeicher, eine Nachrichtenqueue oder eine Anwendung sein.

In diesem Tutorial führen Sie die folgenden Aktionen aus:

  1. Erlauben Sie, dass Data Catalog auf beliebige Objekte in Oracle Object Storage in beliebigen Buckets und in beliebigen Compartments innerhalb des Mandanten zugreift, in dem die Policy erstellt wird.
  2. Erstellen Sie ein Oracle Object Storage-Datenasset.
  3. Fügen Sie eine Standardverbindung für das Datenasset hinzu.
  4. Führen Sie das Harvesting des Datenasset aus, indem Sie die Ausführung des Harvesting-Jobs sofort starten.
Wichtig

Sie können für Object Storage-Dateien das Harvesting als logische Datenentitys durchführen.

Bevor Sie beginnen

Um dieses Tutorial erfolgreich ausführen zu können, benötigen Sie Folgendes:

1. Zugriffs-Policy erstellen

Sie erstellen eine Policy, mit der Data Catalog der Zugriff auf Ihre Object Storage-Ressourcen erteilt wird.

Sie benötigen mindestens die READ-Berechtigung für jeden der Ressourcentypen objectstorage-namespaces, buckets und objects oder für den aggregierten Object Storage-Ressourcentyp object-family.

So erstellen Sie eine Zugriffs-Policy zum Erteilen der Berechtigung READ für den aggregierten Object Storage-Ressourcentyp object-family:

  1. Öffnen Sie das Navigationsmenü , und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
  2. Klicken Sie auf der Seite Policys auf Policy erstellen.
  3. Geben Sie im Bereich Policy erstellen die folgenden Details ein:
    • Name: Geben Sie einen eindeutigen Namen für die Policy ein. Der Name muss in allen Policys Ihres Mandanten eindeutig sein. Sie können den Namen später nicht ändern. Beispiel: data-catalog-dynamic-group.
    • Beschreibung: Geben Sie eine Beschreibung ein, z.B. Zugriff auf Objektspeicherressourcen in einem beliebigen Compartment im Mandanten erteilen.
    • Compartment: Wählen Sie ein Compartment aus, in dem Sie die Policy erstellen möchten.
    • Policy Builder: Setzen Sie in diesem Abschnitt den Regler auf Manuellen Editor anzeigen, und geben Sie die Policy-Regel ein. Beispiel: Geben Sie für die dynamische Gruppe data-catalog-dynamic-group die folgende Policy-Regel ein:
      allow dynamic-group data-catalog-dynamic-group to read object-family in tenancy
      Hinweis

      Diese Policy ermöglicht den Zugriff auf alle Objekte in allen Buckets und Compartments im Mandanten, in dem die Policy erstellt wird. Weitere Beispiele finden Sie unter Policy-Beispiele.
  4. Klicken Sie auf Erstellen.
Sie haben die Policy erfolgreich erstellt, mit der Data Catalog der Zugriff auf alle Oracle Object Storage-Ressourcen erteilt wird.

2. Datenasset erstellen

Nun können Sie die Oracle Object Storage-Datenquellen bei Data Catalog als Datenasset registrieren.

So erstellen Sie ein Oracle Object Storage-Datenasset:

  1. Öffnen Sie das Navigationsmenü , und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Data Catalog aus.
  2. Klicken Sie auf die Data Catalog-Instanz, in der Sie das Datenasset erstellen möchten.
  3. Klicken Sie auf der Homepage der Datenkataloginstanz in der Kachel Schnellaktionen auf Datenasset erstellen.
    Hinweis

    Nachdem Sie eine Datenkataloginstanz erstellt haben, wird beim erstmaligen Zugriff auf die Registerkarte "Home" die Schaltfläche Datenasset erstellen in der Kachel Datenassets angezeigt.
  4. Geben Sie im Bereich Datenasset erstellen die Details wie in der folgenden Tabelle beschrieben ein:
    Feld Beschreibung
    Name

    Geben Sie einen eindeutigen Namen für das Datenasset ein. Sie können den Namen später bearbeiten.

    Folgende Sonderzeichen sind im Namen nicht zulässig:

    & < > " ' / \ = ;

    Name ist ein durchsuchbares Feld in Data Catalog.

    Beschreibung Geben Sie den Zweck oder das Ziel für das Erstellen dieses Datenassets an.
    Typ Wählen Sie Oracle Object Storage aus.
    URL Geben Sie die Swift-URI für die Oracle Object Storage-Ressource im folgenden Format ein: https://swiftobjectstorage.<region-identifier>.oraclecloud.com

    Beispiel:

    https://swiftobjectstorage.us-phoenix-1.oraclecloud.com/
    Namespace Geben Sie den Object Storage-Namespace für die angegebene Oracle Cloud Infrastructure Object Storage-Ressource ein.

    Um die Object Storage-Namespace-Zeichenfolge in der Konsole anzuzeigen, klicken Sie im Menü Profil auf Mandant:<your_tenancy_name>. Der Namespace wird unter Object Storage-Einstellungen aufgeführt.

  5. Klicken Sie auf Erstellen.
Sie haben erfolgreich ein Oracle Object Storage-Datenasset erstellt.

3. Verbindung hinzufügen

Nachdem Sie das Oracle Object Storage-Datenasset erstellt haben, erstellen Sie eine Verbindung für das Datenasset.

So fügen Sie eine Verbindung für das Oracle Object Storage-Datenasset hinzu:

  1. Klicken Sie auf der Registerkarte "Home" auf Datenassets.
  2. Wählen Sie in der Liste "Datenassets" das erstellte Oracle Object Storage-Datenasset aus.
  3. Klicken Sie auf der Seite mit den Datenassetdetails auf der Registerkarte "Übersicht" unter "Verbindungsinformationen" auf Verbindung hinzufügen.
  4. Geben Sie im Bereich Verbindung hinzufügen die Details wie in der folgenden Tabelle beschrieben ein:
    Feld Beschreibung
    Name Geben Sie einen eindeutigen Namen für die Verbindung ein.
    Beschreibung Geben Sie eine kurze Beschreibung für die Verbindung ein.
    Typ Wählen Sie eine der folgenden Optionen aus:
    • Resource Principal: Dies ist der empfohlene Verbindungstyp. Bevor Sie für das Oracle Object Storage-Datenasset eine Resource-Principal-Verbindung erstellen, müssen Sie eine Policy erstellen, mit der Data Catalog der Zugriff auf die Object Storage-Ressource erteilt wird.
    • Vorauthentifizierte Anforderung: Wählen Sie diesen Verbindungstyp aus, um ein Harvesting für einen öffentlichen oder privaten Objektspeicher-Bucket auszuführen, für den Sie über eine vorab authentifizierte Anforderung Zugriff haben. Wenn Sie diesen Verbindungstyp auswählen, wird das Feld URL der vorab authentifizierten Anforderung angezeigt. Geben Sie die URL der vorab authentifizierten Anforderung ein, um auf den Objektspeicher-Bucket zuzugreifen. Weitere Informationen zur Verwendung dieses Verbindungstyps finden Sie unter Vorab authentifizierte Anforderungen verwenden.
    OCI-Region Geben Sie die Regions-ID für die Object Storage-Ressource ein.

    Um die Regions-ID für Ihre Region in der Konsole anzuzeigen, klicken Sie im Menü "Profil" auf Mandant: <your_tenancy_name>. Klicken Sie im Informationsbanner Regionen verwalten auf Regionen verwalten. Die Regionsnamen und Regions-IDs werden angezeigt.

    Compartment Wählen Sie das Compartment für Ihre Object Storage-Ressource aus.

    Um das Compartment anzuzeigen, öffnen Sie in der Konsole das Navigationsmenü, und klicken Sie auf Identität und Sicherheit. Klicken Sie unter Identität auf Compartments. Klicken Sie auf den Compartment-Link für die Object Storage-Ressource. Kopieren Sie auf der Seite Compartment-Details die OCID auf der Registerkarte Compartmentinformationen.

    Legen Sie diese Verbindung als Standardverbindung für das Datenasset fest. Aktivieren Sie dieses Kontrollkästchen, um diese Verbindung zur Standardverbindung für das Datenasset zu machen.
    Verbindung testen Klicken Sie auf die Schaltfläche, um die Verbindung zu testen.
  5. Klicken Sie auf Hinzufügen.

4. Harvesting des Datenassets ausführen

Sie können für Ihr Oracle Object Storage-Datenasset jetzt ein Harvesting ausführen.

So führen Sie für das Oracle Object Storage-Datenasset ein Harvesting aus:

  1. Klicken Sie auf der Seite mit den Datenassetdetails auf Harvesting.
    Die Seite Verbindung auswählen wird mit der ausgewählten Standardverbindung angezeigt.
  2. Klicken Sie auf Weiter.
    Die Seite Datenentitys auswählen wird angezeigt.
  3. Fügen Sie im Abschnitt Verfügbarer Bucket die Datenentitys hinzu, für die Sie ein Harvesting ausführen möchten. Um eine Datenentity hinzuzufügen, klicken Sie daneben auf das Symbol "Hinzufügen". Um ein Harvesting für alle Datenentitys auszuführen, klicken Sie auf Alle hinzufügen.
    Auf dieser Seite können Sie folgende andere Vorgänge ausführen:
    • Im Feld Bucket/Datenentitäten filtern können Sie eine Datenentity in den verfügbaren Datenentitys suchen.
    • Verwenden Sie die Symbole zur Seitennavigation, um alle Datenentitys zu durchsuchen.
    • Um eine ausgewählte Datenentity aus dem Harvesting-Job zu entfernen, klicken Sie neben der Datenentity auf das Symbol "Entfernen".
    • Um alle ausgewählten Datenentitys zu entfernen, klicken Sie auf Alle entfernen.
  4. Klicken Sie auf Weiter.
    Die Seite Job erstellen wird angezeigt.
  5. Führen Sie auf dieser Seite die folgenden Aktionen aus:
    1. Jobname: Geben Sie einen eindeutigen Namen für den Erntejob ein.
    2. Jobbeschreibung: Geben Sie eine Beschreibung ein.
    3. Inkrementelles Harvesting: Aktivieren Sie dieses Kontrollkästchen, wenn bei nachfolgenden Ausführungen dieses Harvesting-Jobs nur die Datenentitys erstellt werden sollen, die bei der ersten Ausführung des Harvesting-Jobs geändert wurden.
    4. Nicht erkannte Dateien einschließen: Aktivieren Sie dieses Kontrollkästchen, um für eine logische Datenentity ein Harvesting auszuführen, die nur aus archivierten Dateien besteht, oder für eine andere Datei, die in Data Catalog nicht unterstützt wird. Beispiel: .log, .txt, .sh, .jar und .pdf.
    5. Nur übereinstimmende Dateien einschließen: Aktivieren Sie dieses Kontrollkästchen, wenn Data Catalog nur für die Dateien ein Harvesting ausführen soll, die mit den zugewiesenen Dateimustern übereinstimmen. Wenn Sie dieses Kontrollkästchen aktivieren, werden die Dateien, die nicht mit den zugewiesenen Dateimustern übereinstimmen, während des Harvestings ignoriert. Sie werden zur Anzahl der Übersprungenen hinzugefügt.
    6. Ausführungszeit: Wählen Sie in diesem Abschnitt eine der folgenden Optionen aus:
      • Job jetzt ausführen: Erstellt einen Harvesting-Job und führt ihn sofort aus.
      • Joblauf planen: Zeigt weitere Felder zur Planung des Harvesting-Jobs an. Geben Sie einen Namen und eine Beschreibung für den Ausführungsplan ein. Geben Sie an, wie oft der Job ausgeführt werden soll. Die Optionen lauten "Stündlich", "Täglich", "Wöchentlich" und "Monatlich". Als Letztes wählen Sie die Start- und Endzeit für den Job aus.
      • Jobkonfigurationen für später speichern: Erstellt einen Harvesting-Job für das Data Asset, der Job wird jedoch nicht ausgeführt. Sie können den Job später auf der Seite "Jobs" ausführen oder planen.
  6. Klicken Sie auf Job erstellen.
    Der Job für das Harvesting des Oracle Object Storage-Datenassets wurde erfolgreich erstellt. Der Job wird auf der Seite Jobs aufgeführt.
Für das Datenasset wird je nach ausgewähltem Zeitplan erfolgreich ein Harvesting ausgeführt. Sie können die Details des Harvesting-Jobs prüfen, indem Sie auf der Seite Jobs auf den Jobnamen klicken.