Подготовка документов к анализу с помощью модели OCI Document Understanding

Контейнеры в хранилище объектов OCI используются для хранения документов, которые необходимо проанализировать, а затем для доступа к этим документам в Oracle Analytics создается набор данных.

В большинстве случаев входные документы и модели ИИ хранятся в одной учетной записи (области аренды) Oracle Cloud, что упрощает настройку в Oracle Analytics.

Если входные документы и модели ИИ хранятся в разных областях аренды:
  • Убедитесь, что контейнер хранилища, где содержатся входные документы, является общедоступным. См. Изменение видимости контейнера.
  • Заполните входной набор данных для потока данных URL-ссылками на отдельные документы, а не одним URL-адресом для контейнера OCI, где хранятся документы.
За один раз поток данных Oracle Analytics может обработать до 10 000 документов для предварительно обученных моделей и до 2000 документов для пользовательских моделей. Если у вас больше документов, чем можно обработать за один раз, создайте несколько контейнеров в объектном хранилище и архивном хранилище OCI, в каждом из которых будет храниться не больше максимально допустимого числа документов. Далее создайте отдельный набор данных и поток данных для каждого контейнера и используйте последовательность для последовательной обработки потоков данных.

Контейнер может быть частным или общедоступным, но он должен быть доступен пользователю OCI и соответствовать общим ограничениям OCI на документы. См. документацию OCI.

  1. В консоли OCI перейдите в Хранилище объектов и архивное хранилище и создайте контейнер для хранения документов.

  2. В области Хранилище объектов и архивное хранилище нажмите на название контейнера, а затем в области Объекты на странице нажмите Загрузить и загрузите документы.
    Убедитесь, что контейнер не содержит посторонних файлов. Oracle Analytics обрабатывает каждый файл в контейнере.
  3. Для каждого контейнера добавьте URL контейнера на файл с разделителями-запятыми (CSV).
    1. В окне "Хранилище объектов" выберите контейнер для отображения документов в диалоговом окне "Объекты".
    2. Скопируйте URL-адрес из адресной строки браузера.
    3. Создайте файл CSV с полями для значений ID, Bucket Name и Bucket URL.
    4. Вставьте URL-адрес контейнера в файл CSV в качестве значения Bucket URL.
      Кроме того, если входные документы и модели ИИ хранятся в разных областях аренды, добавьте их отдельно в CSV-файл.
      Создайте файл CSV с полями для значений Идентификатор, Имя документа и Идентификатор документа. Для каждого документа в хранилище объектов нажмите на значок многоточия значок многоточия, выберите Просмотр сведений об объекте и скопируйте значение Имя и Путь URL (URI).

      Вставьте значение "Имя" как "Имя документа", а значение "Путь URL (URI)" как "URL документа".

  4. В Oracle Analytics для каждого контейнера, используемого для хранения документов, нажмите Создать, а затем Набор данных.
  5. Загрузите файл CSV, созданный в шаге 3, и сохраните набор данных.
    Повторите шаги 4 и 5 для каждого контейнера. Если у вас более 10 000 документов, обычно создается несколько контейнеров, которые содержат до 10 000 документов, а также отдельный набор данных для каждого контейнера.