Dokumente auf die Analyse mit einem OCI Document Understanding-Modell vorbereiten

Sie verwenden Buckets in OCI Object Storage, um die Dokumente zu speichern, die Sie analysieren möchten. Dann erstellen Sie ein Dataset, um in Oracle Analytics auf diese Dokumente zuzugreifen.

In der Regel speichern Sie Eingabedokumente und KI-Modelle in demselben Oracle Cloud-Account (Mandanten), um das Setup in Oracle Analytics zu erleichtern.

Wenn Ihre Eingabedokumente und KI-Modelle in unterschiedlichen Mandanten gespeichert sind:
  • Stellen Sie sicher, dass die Sichtbarkeit des Speicher-Buckets mit Ihren Eingabedokumenten auf öffentlich gesetzt ist. Siehe Sichtbarkeit eines Buckets ändern.
  • Füllen Sie das Eingabe-Dataset für den Datenfluss mit einzelnen Dokument-URLs anstelle einer einzigen URL für den OCI-Bucket, in dem Dokumente gespeichert sind.
Datenflüsse in Oracle Analytics können bis zu 10.000 Dokumente in einem Durchlauf verarbeiten. Wenn mehr als 10.000 Dokumente verarbeitet werden müssen, erstellen Sie in OCI Object Storage und Archive Storage mehrere Buckets mit jeweils maximal 10.000 Dokumenten. Erstellen Sie dann für jeden Bucket ein separates Dataset und einen separaten Datenfluss, und verwenden Sie eine Sequenz, um die Datenflüsse nacheinander zu verarbeiten.

Sie können einen privaten oder öffentlichen Bucket verwenden, der für den OCI-Benutzer zugänglich ist und die allgemeinen OCI-Limits für Dokumente einhält. Weitere Informationen finden Sie in der OCI-Dokumentation.

  1. Navigieren Sie in der OCI-Konsole zu Object Storage und Archive Storage, und erstellen Sie einen Bucket zum Speichern Ihrer Dokumente.

  2. Klicken Sie im Bereich Object Storage und Archive Storage auf einen Bucket-Namen, und klicken Sie dann unter der Region Objekte der Seite auf Hochladen, um Ihre Dokumente hochzuladen.
    Achten Sie darauf, dass der Bucket keine überflüssigen Dateien enthält, die Sie nicht verarbeiten möchten. Oracle Analytics verarbeitet jede einzelne Datei im Bucket.
  3. Fügen Sie für jeden Bucket die Bucket-URL zu einer CSV-Datei hinzu.
    1. Wählen Sie in Object Storage den Bucket aus, um die Dokumente im Dialogfeld "Objekte" anzuzeigen.
    2. Kopieren Sie die URL aus der URL-Leiste des Browsers.
    3. Erstellen Sie eine CSV-Datei mit Feldern für ID, Bucket Name und Bucket URL.
    4. Fügen Sie die Bucket-URL als Bucket URL-Wert in die CSV-Datei ein.
      Wenn Ihre Eingabedokumente und KI-Modelle in unterschiedlichen Mandanten gespeichert sind, können Sie diese auch einzeln zur CSV-Datei hinzufügen.
      Erstellen Sie eine CSV-Datei mit Feldern für ID, Document Name und Document URL. Klicken Sie für jedes Dokument in Object Storage auf die Auslassungspunkte Symbol "Auslassungspunkte", wählen Sie Objektdetails anzeigen aus, und kopieren Sie die Werte für Name und URL-Pfad (URI).

      Fügen Sie den Namen unter "Document Name" und den URL-Pfad (URI) unter "Document URL" ein.

  4. Klicken Sie in Oracle Analytics für jeden Bucket, in dem Sie Dokumente speichern, auf Erstellen und dann auf Dataset.
  5. Laden Sie die CSV-Datei hoch, die Sie in Schritt 3 erstellt haben, und speichern Sie das Dataset.
    Wiederholen Sie die Schritte 4 und 5 für jeden Bucket. Wenn Sie mehr als 10.000 Dokumente haben, erstellen Sie mehrere Buckets mit jeweils maximal 10.000 Dokumenten und ein separates Dataset für jeden Bucket.