Dokumentumok előkészítése OCI Document Understanding modellel való elemzéshez

Az elemezni kívánt dokumentumok tárolására az OCI Object Storage gyűjtőit használja, majd hozzon létre egy adatkészletet ezen dokumentumok eléréséhez az Oracle Analytics szolgáltatásban.

A beviteli dokumentumokat és az AI-modelleket általában ugyanabban az Oracle Cloud-fiókban (bérlet) tároljuk, így könnyebb a beállításuk az Oracle Analytics szolgáltatásban.

Ha a beviteli dokumentumokat és az AI-modelleket más bérletekben tárolja:
  • Győződjön meg arról, hogy a beviteli dokumentumokat tartalmazó tárolási gyűjtő láthatósága nyilvános. Lásd: Egy gyűjtő láthatóságának módosítása.
  • Egyéni dokumentumokhoz tartozó URL-címekkel töltse ki az adatfolyam bemeneti adatkészletét a dokumentumokat tároló OCI-gyűjtő egységes URL-címe helyett.
Az Oracle Analytics adatfolyamai egyetlen futtatás során legfeljebb 10 000 (előre betanított modellek esetén) vagy 2000 (egyéni modellek esetén) dokumentumot tudnak feldolgozni. Ha meghaladja az egyetlen futtatás során feldolgozható dokumentumok maximális számát, az OCI Object Storage és Archive Storage területen hozzon létre több gyűjtőt, amelyek mindegyike a maximális számúnál nem több dokumentumot tartalmaz. Ezután hozzon létre egy külön adatkészletet és adatfolyamot minden gyűjtő számára, és használjon sorrendet az adatfolyamok egymás után történő feldolgozásához.

Használhat privát vagy nyilvános gyűjtőt, amelyhez az OCI-felhasználó hozzáfér, és amely megfelel az OCI dokumentumokra vonatkozó általános korlátozásainak. Lásd az OCI dokumentációját.

  1. Az OCI Console felületén navigáljon Object Storage és Archive Storage területekre, és hozzon létre egy gyűjtőt a dokumentumai tárolására.

  2. Az Object Storage és Archive Storage területen kattintson egy gyűjtő nevére, majd az oldal Objektumok területén kattintson a Feltöltés elemre, és töltse fel a dokumentumait.
    Győződjön meg arról, hogy a gyűjtő nem tartalmaz idegen fájlokat, amelyeket nem kíván feldolgozni. Az Oracle Analytics a gyűjtőben lévő összes fájlt feldolgozza.
  3. Minden gyűjtőnél adja hozzá a gyűjtő URL-címét egy vesszővel tagolt értékeket tartalmazó (CSV-) fájlhoz.
    1. Az Object Storage szolgáltatásban válassza ki a gyűjtőt a dokumentumok megjelenítéséhez az Objektumok párbeszédpanelben.
    2. Másolja ki az URL-címet a böngésző URL-sávjából.
    3. Hozzon létre egy CSV-fájlt az Azonosító, Gyűjtő neve és Gyűjtő URL-címe mezőkkel.
    4. Illessze be a gyűjtő URL-címét a CSV-fájlba, mint Gyűjtő URL-címe érték.
      Ha a beviteli dokumentumokat és az AI-modelleket más bérletekben tárolja:, adja hozzá őket egyenként a CSV-fájlhoz.
      Hozzon létre egy CSV-fájlt a következő mezőkkel: ID, Document Name és Document URL. Az Object Storage minden dokumentumánál kattintson az ellipszis ikonra három pont ikon, majd válassza az Objektumrészletek megtekintése elemet, és másolja ki a Név és az URL-útvonal (URI) értékeket.

      Illessze be a Név értéket a Dokumentum neveként, az URL-útvonal (URI) értéket pedig a Dokumentum URL-címeként.

  4. Az Oracle Analytics szolgáltatásban, minden dokumentumok tárolására használt gyűjtőnél kattintson a Létrehozás, majd az Adatkészlet elemre.
  5. Töltse fel a 3. lépésben létrehozott CSV-fájlt, és mentse az adatkészletet.
    Minden gyűjtő esetében ismételje meg a 4. és 5. lépéseket. Ha több mint 10 000 dokumentummal rendelkezik, hozzon létre több olyan gyűjtőt, amelyek mindegyike legfeljebb 10 000 dokumentumot tartalmaz, majd hozzon létre különálló adatkészletet mindegyik gyűjtőhöz.