Przygotowywanie dokumentów do analizy za pomocą modelu OCI Document Understanding

Do przechowywania dokumentów, które mają zostać przeanalizowane, należy używać koszyków w usłudze OCI Object Storage. Następnie należy utworzyć zbiór danych, co umożliwi dostęp do tych dokumentów w Oracle Analytics.

Dokumenty wejściowe i modele AI zazwyczaj są przechowywane na tym samym koncie (dzierżawie) Oracle Cloud, co ułatwia konfigurowanie ich w Oracle Analytics.

Jeśli dokumenty wejściowe i modele AI są przechowywane w różnych dzierżawach:
  • Upewnić się, że koszyk składowania zawierający dokumenty wejściowe jest widoczny publicznie. Zob. Zmiana widoczności koszyka.
  • Wypełnić wejściowy zbiór danych, który będzie używany w przepływie danych, pojedynczymi adresami URL dokumentów, a nie jednym adresem URL koszyka OCI, w którym są przechowywane dokumenty.
Przepływy danych Oracle Analytics umożliwiają przetworzenie w jednym przebiegu do 10 000 dokumentów dla wstępnie wytrenowanych modeli i do 2000 dokumentów dla modeli niestandardowych. Jeśli liczba dokumentów przechowywanych przez użytkownika w usługach OCI Object Storage i Archive jest większa niż maksymalna liczba dokumentów, które można przetworzyć w jednym przebiegu, należy utworzyć wiele koszyków, z których każdy będzie zawierał mniej dokumentów niż maksymalna ich liczba. Następnie dla każdego koszyka należy utworzyć osobny zbiór danych i przepływ danych, po czym należy użyć sekwencji w celu sekwencyjnego przetworzenia tych przepływów danych.

Można użyć koszyka prywatnego lub publicznego, który jest dostępny dla użytkownika OCI i jest zgodny z ogólnymi limitami dotyczącymi dokumentów obowiązującymi w OCI. Zob. dokumentacja OCI.

  1. W konsoli OCI przejść do usług Object Storage i Archive Storage, po czym utworzyć nowy koszyk do przechowywania dokumentów.

  2. W obszarze usług Object Storage i Archive Storage kliknąć nazwę koszyka, a następnie w obszarze strony Obiekty kliknąć Wyślij i wysłać dokumenty.
    Upewnić się, że koszyk nie zawiera nadmiarowych plików, które nie mają być przetwarzane. Oracle Analytics przetwarza każdy plik z koszyka.
  3. Dodać adres URL każdego koszyka do pliku wartości rozdzielonych przecinkami (CSV).
    1. W usłudze Object Storage wybrać koszyk, aby wyświetlić dokumenty w oknie dialogowym "Obiekty".
    2. Skopiować adres URL z paska adresu URL w przeglądarce.
    3. Utworzyć plik CSV z polami ID, Bucket Name (nazwa koszyka) i Bucket URL (URL koszyka).
    4. Wkleić URL koszyka do pliku CSV jako wartość adresu URL koszyka.
      Jeśli jednak dokumenty wejściowe i modele AI są przechowywane w różnych dzierżawach, dodać je pojedynczo do pliku CSV.
      Utworzyć plik CSV zawierający pola ID, Document Name (Nazwa dokumentu) i Document URL (Adres URL dokumentu). Dla każdego dokumentu w usłudze Object Storage kliknąć ikonę wielokropka ikona wielokropka, wybrać polecenie Wyświetl szczegóły obiektu i skopiować wartości Nazwa oraz Ścieżka URL (URI).

      Wkleić wartość "Nazwa" w polu "Nazwa dokumentu", a wartość "Ścieżka URL (URI)" w polu "Adres URL dokumentu".

  4. W Oracle Analytics dla każdego koszyka używanego w celu składowania dokumentów kliknąć Utwórz, a następnie pozycję Zbiór danych.
  5. Wysłać plik CSV utworzony w kroku 3 i zapisać zbiór danych.
    Powtórzyć kroki 4 i 5 dla każdego koszyka. Jeśli liczba dokumentów przekracza 10 000, utworzyć wiele koszyków zawierających nie więcej niż 10 000 dokumentów, a następnie utworzyć osobny zbiór danych dla każdego koszyka.