Datenquelldaten in OCI Generative AI-Agents aufnehmen

Ein Datenaufnahmejob extrahiert Daten aus Datenquellendokumenten, konvertiert sie in ein für die Analyse geeignetes strukturiertes Format und speichert sie dann in einer Wissensdatenbank.

  1. Wählen Sie auf der Listenseite Knowledge Bases die Wissensdatenbank aus, in der Sie Daten für ihre Datenquelle aufnehmen möchten. Wenn Sie Hilfe beim Suchen der Listenseite benötigen, finden Sie weitere Informationen unter Knowledge Bases auflisten.
  2. Wählen Sie die Datenquelle aus, die Sie aufnehmen möchten.
  3. Wählen Sie Aufnahmejob erstellen aus.
  4. Geben Sie folgende Werte ein:
    • Name: Ein Name, der mit einem Buchstaben oder Unterstrich beginnt, gefolgt von Buchstaben, Zahlen, Bindestrichen und Unterstrichen. Sie können zwischen 1 und 255 Zeichen lang sein.
    • Beschreibung: Eine optionale Beschreibung
    • Tags: Wählen Sie Erweiterte Optionen anzeigen aus, und fügen Sie dem Aufnahmejob mindestens ein Tag hinzu. Wenn Sie über Berechtigungen zum Erstellen von Ressourcen verfügen, sind Sie berechtigt, die zugehörigen Tags zu aktualisieren. Wenn Sie Hilfe benötigen, finden Sie weitere Informationen unter Tags und Tag-Namespace-Konzepte.
  5. Klicken Sie auf Erstellen.

    Ein Aufnahmejob wird mit dem Status "Akzeptiert" als erster Job gestartet. Sie können einen Aufnahmejob in keinem Status abbrechen.

  6. Warten Sie, bis sich der Jobstatus ändert, und führen Sie eventuell erforderliche Aktionen aus.

    Zeigen Sie die Statuslogs des Jobs an, um Details zur Dateiaufnahmeverarbeitung abzurufen, einschließlich Korrekturmaßnahmen. Anweisungen zum Anzeigen der Statuslogs finden Sie unter Details eines Datenaufnahmejobs abrufen.

    Jobstatus Beschreibung Auszuführende Aktion
    Erfolgreich Der Job wurde abgeschlossen und alle Dateien erfolgreich verarbeitet. Prüfen Sie die Statuslogs, um zu bestätigen, dass alle aktualisierten Dateien erfolgreich aufgenommen wurden.
    Abgeschlossen, mit Fehlern Der Job hat alle Dateien abgeschlossen und verarbeitet. Es gibt jedoch einige Dateifehler. Mögliche Dateifehler oder -fehler sind:
    • Beschädigte Datei.
    • PDF-Datei ist kennwortgeschützt.
    • Beschädigte Bilder in einer Datei werden ignoriert.
    • Tabellendaten in einer PDF-Datei konnten nicht aufgenommen werden. Der Rest des Dateiinhalts wird aufgenommen.
    • URLs in einer PDF-Datei konnten nicht aufgenommen werden. Der Rest des Dateiinhalts wird aufgenommen.
    • Beim Verarbeiten der Metadatenattribute der Datei ist ein Problem aufgetreten. Die Datei wird aufgenommen, jedoch ohne die Metadatenattribute.
    Prüfen Sie die Statuslogs, um den Grund für einzelne Dateifehler zu ermitteln. Beheben Sie die Probleme, und starten Sie den Job neu.
    Fehler, Datenquelle korrigieren Beim Zugriff auf den Bucket oder die Dateien, die in der Datenquellenkonfiguration angegeben sind, ist ein Problem aufgetreten. Prüfen Sie die Statuslogs auf Vorschläge zur Behebung des Problems oder der Probleme, und starten Sie den Job neu.
    Nicht erfolgreich, Wiederholung erforderlich Es gibt ein Problem mit einem abhängigen System wie Object Storage oder OpenSearch, selbst nach mehreren Wiederholungen. Führen Sie den Job später erneut aus.
    Fehler, wenden Sie sich an den Support Es ist ein Problem aufgetreten, das nicht durch erneuten Versuch behoben werden kann. Support kontaktieren

Hinweis

Nach dem Erstellen eines Aufnahmejobs
  1. Prüfen Sie die Status- und Statuslogs, um zu bestätigen, dass alle aktualisierten Dateien erfolgreich aufgenommen wurden. Wenn Sie Hilfe beim Abrufen der Statuslogs benötigen, lesen Sie Details eines Datenaufnahmejobs abrufen.
  2. Wenn der Aufnahmejob nicht erfolgreich verläuft (z.B. weil eine Datei zu groß ist), beheben Sie das Problem, und starten Sie den Job neu.
So verarbeitet die Aufnahmepipeline zuvor ausgeführte Jobs

Wenn Sie einen zuvor ausgeführten Aufnahmejob neu starten, führt die Pipeline folgende Schritte aus:

  1. Ermittelt Dateien, die zuvor erfolgreich aufgenommen wurden, und überspringt sie.
  2. Es werden nur Dateien aufgenommen, die vorher nicht erfolgreich waren und seitdem aktualisiert wurden.
Beispielszenario

Angenommen, Sie müssen 20 Dateien aufnehmen, und der anfängliche Joblauf führt zu 2 nicht erfolgreichen Dateien. Wenn Sie den Job neu starten, führt die Pipeline folgende Schritte aus:

  1. Erkennt, dass bereits 18 Dateien erfolgreich aufgenommen wurden, und ignoriert sie.
  2. Nimmt nur die 2 Dateien auf, die vorher nicht erfolgreich waren und seitdem aktualisiert wurden.