Подготовка документов к анализу с помощью модели OCI Document Understanding

Контейнеры в хранилище объектов OCI используются для хранения документов, которые необходимо проанализировать, а затем для доступа к этим документам в Oracle Analytics создается набор данных.

В большинстве случаев входные документы и модели ИИ хранятся в одной учетной записи (области аренды) Oracle Cloud, что упрощает настройку в Oracle Analytics.

Если входные документы и модели ИИ хранятся в разных областях аренды:
  • Убедитесь, что контейнер хранилища, где содержатся входные изображения, является общедоступным. См. Изменение видимости контейнера.
  • Заполните входной набор данных для потока данных URL-ссылками на отдельные изображения, а не одним URL для контейнера OCI, где хранятся документы.
Потоки данных в Oracle Analytics могут обрабатывать до 10 000 документов за один запуск. Если требуется обработать более 10 000 документов, в хранилище объектов и архивном хранилище OCI создайте несколько контейнеров, содержащих до 10 000 изображений в каждом. Далее создайте отдельный набор данных и поток данных для каждого контейнера и используйте последовательность для последовательной обработки потоков данных.

Контейнер может быть частным или общедоступным, но должен быть доступен пользователю OCI и соответствовать общим ограничениям OCI на изображения. См. документацию OCI.

  1. В консоли OCI перейдите в Хранилище объектов и архивное хранилище и создайте контейнер для хранения изображений.

  2. В области Хранилище объектов и архивное хранилище нажмите на название контейнера, а затем в области Объекты на странице нажмите Загрузить и загрузите документы.
    Убедитесь, что контейнер не содержит посторонних файлов. Oracle Analytics обрабатывает каждый файл в контейнере.
  3. Для каждого контейнера добавьте URL контейнера на файл с разделителями-запятыми (CSV).
    1. В окне "Хранилище объектов" выберите контейнер для отображения изображений в диалоговом окне "Объекты".
    2. Скопируйте URL-адрес из адресной строки браузера.
    3. Создайте файл CSV с полями для значений ID, Bucket Name и Bucket URL.
    4. Вставьте URL-адрес контейнера в файл CSV в качестве значения Bucket URL.
      Кроме того, если входные документы и модели ИИ хранятся в разных областях аренды, добавьте их отдельно в CSV-файл.
      Создайте файл CSV с полями для значений ID, Document Name и Document ID. Для каждого документа в хранилище объектов нажмите на значок многоточия значок многоточия, выберите Просмотр сведений об объекте и скопируйте значение Имя и Путь URL (URI).

      Вставьте значение "Имя" как "Имя документа", а значение "Путь URL (URI)" как "URL документа".

  4. В Oracle Analytics для каждого контейнера, используемого для хранения документов, нажмите Создать, а затем Набор данных.
  5. Загрузите файл CSV, созданный в шаге 3, и сохраните набор данных.
    Повторите шаги 4 и 5 для каждого контейнера. Если у вас более 10 000 документов, обычно создается несколько контейнеров, которые содержат до 10 000 документов, а также отдельный набор данных для каждого контейнера.