Příprava dokumentů k analýze pomocí modelu služby OCI Document Understanding

K ukládání dokumentů, které chcete analyzovat, použijte sektory v úložišti objektů OCI. Poté vytvořte datovou sadu, abyste získali přístup k těmto dokumentům ve službě Oracle Analytics.

Vstupní dokumenty a modely umělé inteligence budete obvykle ukládat do stejného účtu Oracle Cloud (pronajatý prostor), čímž si usnadníte nastavení ve službě Oracle Analytics.

Pokud jsou vaše vstupní dokumenty a modely umělé inteligence uloženy v různých pronajatých prostorech:
  • Ujistěte se, zda je pro sektor úložiště obsahující vaše vstupní dokumenty nastavena veřejná viditelnost. Prostudujte si téma Změnit viditelnost sektoru.
  • Naplňte vstupní datovou sadu pro datový tok adresami URL jednotlivých dokumentů namísto jediné adresy URL pro sektor OCI, v němž jsou dokumenty uloženy.
Datové toky ve službě Oracle Analytics mohou v rámci jednoho spuštění zpracovat až 10 000 dokumentů. Pokud máte více než 10 000 dokumentů, pak v úložišti objektů a úložišti archivu OCI vytvořte více sektorů, z nichž každý bude obsahovat maximálně 10 000 dokumentů. Poté pro každý sektor vytvořte samostatnou datovou sadu a datový tok a následně použijte sekvenci k postupnému zpracování datových toků.

Můžete použít privátní nebo veřejný sektor, který je přístupný uživateli OCI a splňuje obecné limity OCI pro dokumenty. Viz dokumentace k OCI.

  1. V konzole OCI přejděte do úložiště objektů a úložiště archivu a vytvořte sektor pro ukládání dokumentů.

  2. V oblasti Úložiště objektů a úložiště archivu klikněte na název sektoru, poté v oblasti Objekty na stránce klikněte na volbu Odeslat a odešlete své dokumenty.
    Ujistěte se, že sektor neobsahuje žádné nadbytečné soubory, které nechcete zpracovávat. Oracle Analytics zpracovává každý soubor v sektoru.
  3. Pro každý sektor přidejte adresu URL sektoru do souboru s hodnotami oddělenými čárkou (CSV).
    1. V úložišti objektů vyberte sektor pro zobrazení dokumentů v dialogovém okně Objekty.
    2. Zkopírujte adresu URL z pruhu adres URL prohlížeče.
    3. Vytvořte soubor CSV s poli pro ID, Bucket Name, a Bucket URL.
    4. Adresu URL sektoru vložte do souboru CSV jako hodnotu pole Bucket URL.
      Případně, pokud jsou vstupní dokumenty a modely umělé inteligence uloženy v různých pronajatých prostorech, přidejte je do souboru CSV jednotlivě.
      Vytvořte soubor CSV s poli pro parametry ID, Document NameDocument URL. Pro každý dokument v úložišti objektů klikněte na ikonu se třemi tečkami ikona třech teček, vyberte volbu Zobrazit podrobnosti objektu a zkopírujte hodnoty NázevCesta URL (URI).

      Vložte hodnotu Název jako hodnotu Document Name a hodnotu Cesta URL (URI) jako hodnotu Document URL.

  4. Ve službě Oracle Analytics klikněte pro každý sektor, který používáte k ukládání dokumentů, na volbu Vytvořit a poté na volbu Datová sada.
  5. Odešlete soubor CSV, který jste vytvořili v kroku 3, a uložte datovou sadu.
    Opakujte kroky 4 a 5 pro každý sektor. Pokud máte více než 10 000 dokumentů, vytvořte více sektorů až pro 10 000 dokumentů a pro každý sektor vytvořte samostatnou datovou sadu.