ドキュメント分類およびキー値抽出の概要

Oracle Cloud Infrastructure (OCI)では、Document Understandingによって、テキスト、表およびその他のキー・データをドキュメント・ファイルから抽出できる事前トレーニング済AIモデルが提供されます。ドキュメントに対してドキュメント分類やキー値の抽出を行い、抽出したデータをOracle Analyticsでの分析の一部として使用します。

Document Understandingでは、キー値の抽出およびドキュメント分類のためのカスタム・モデルを作成することもできます。

Oracle Analyticsでは、データ・フローを使用してDocument Understanding AIモデルをデータに適用します。

Oracle Analyticsは、Document Understandingから利用できるいくつかの事前トレーニング済AIモデルおよびカスタムAIモデルをサポートしています:
  • Oracle Analyticsでサポートされる事前トレーニング済モデル
    • ドキュメント分類
    • キー値の抽出(領収書、請求書、運転免許証およびパスポートの場合)
  • Oracle Analyticsでサポートされるカスタム・モデル
    • カスタム・ドキュメント分類
    • カスタム・キー値抽出

Oracle Analyticsでカスタム・モデルを使用するには、OCIコンソールでカスタム・モデルを設定および構築する必要があります。まず、OCI Data Labelingを使用して、モデルのトレーニングに使用できる良質なデータセットを作成し、次にカスタム・モデルを構築します。OCI Document Understanding - カスタム・モデルを参照してください。

ドキュメント分類モデルからの出力例

この例では、データ・フローは事前トレーニング済ドキュメント分類モデルをJPG形式のドキュメントに適用し、それらが領収書であるかどうかを予測し、分析結果をデータセットに出力します。データセットには、「ドキュメント・タイプ」としてRECEIPT値、および各ドキュメントに対して「信頼度」予測レベルが含まれます。


oci_du_files13.pngの説明が続きます
図oci_du_files13.pngの説明

開始する前に: