Обзор классификации документов и извлечение ключевых значений

Служба Oracle Cloud Infrastructure (OCI) Document Understanding предоставляет предварительно обученные модели ИИ, которые могут извлекать текст, таблицы и прочие ключевые данные из файлов документов. Вы классифицируете документы или извлекаете из документа ключевые значения, а затем используете полученные данные в рамках анализа в Oracle Analytics.

Document Understanding позволяет также создавать пользовательские модели для извлечения ключевых значений и классификации документов.

В Oracle Analytics для применения ИИ-моделей Document Understanding к данным используются потоки данных.

Oracle Analytics поддерживает в рамках Document Understanding несколько предварительно обученных и пользовательских ИИ-моделей:
  • Предварительно обученные модели, поддерживаемые Oracle Analytics
    • Классификация документов
    • Извлечение ключевых значений (для чеков, счетов, водительских удостоверений и паспортов)
  • Пользовательские модели, поддерживаемые Oracle Analytics
    • Пользовательская классификация документов
    • Извлечение пользовательских ключевых значений

Пользовательские модели необходимо настроить и создать в консоли OCI, прежде чем их можно будет использовать в Oracle Analytics. Сначала необходимо использовать маркировку данных OCI, чтобы создать правильный набор данных, который будет использоваться для обучения модели, а затем построить саму пользовательскую модель. См. раздел "OCI Document Understanding — пользовательские модели".

Пример выходных данных из модели классификации документов

В этом примере поток данных применяет предварительно обученную модель классификации документов к документам в формате JPG для предсказания, являются ли они чеками, и выводит результаты анализа в набор данных. Набор данных содержит значение RECEIPT в поле "Тип документа" и уровень достоверности прогнозирования каждого документа.


Описание GUID-D4540502-D2A4-43CB-B023-E9F27C43579E-default.png ниже
.png

Перед началом работы: