文件分類和索引鍵值擷取簡介

Oracle Cloud Infrastructure (OCI) 的 Document Understanding 提供預先訓練的 AI 模型,可從文件檔案中擷取文字、表格以及其他索引鍵資料。您可以對文件執行文件分類或索引鍵值擷取,然後在 Oracle Analytics 使用擷取的資料作為分析的一部分。

此外,Document Understanding 也可讓您對索引鍵值擷取和文件分類建立自訂模型。

在 Oracle Analytics 中,您使用資料流程在您的資料套用 Document Understanding AI 模型。

Oracle Analytics 支援 Document Understanding 提供的多種預先訓練和自訂 AI 模型:
  • Oracle Analytics 支援的預先訓練模型
    • 文件分類
    • 索引鍵值擷取 (適用於收據、發票、駕照以及護照)
  • Oracle Analytics 支援的自訂模型
    • 自訂文件分類
    • 自訂索引鍵值擷取

您必須先在 OCI 主控台設定及建置自訂模型後,才能在 Oracle Analytics 中使用。首先,請使用 OCI Data Labeling 建立可用於訓練模型的優質資料集,然後建立自己的自訂模型。請參閱OCI Document Understanding - 自訂模型

文件分類模型輸出範例

在本範例中,資料流程對 JPG 格式的文件套用預先訓練的文件分類模型來預測它們是否為收據,然後將分析結果輸出至資料集。該資料集的「文件類型」會包含 RECEIPT 值,且每個文件都會有「信賴度」預測層級。


以下為 GUID-D4540502-D2A4-43CB-B023-E9F27C43579E-default.png 的說明
.png

開始之前: