ドキュメント分類およびキー値抽出の実行

事前構築済OCI Document Understandingモデルを使用して、機械学習(ML)や人工知能(AI)の専門知識なしで、ドキュメント分類およびキー値抽出をアプリケーションに組み込みます。たとえば、ドキュメント分類を使用して、パスポート、運転免許、領収書および請求書を識別します。

ドキュメントが10,000未満の場合は、単一のデータ・フローで処理できます。ドキュメントが10,000を超える場合は、個別のデータ・フローを作成して各バケットを処理し(つまり、バケットごとに個別のデータセットを使用し)、シーケンスを使用してデータ・フローを順番に処理します。データ・フローのシーケンスを使用したデータの処理を参照してください。

前提条件:

Oracle AnalyticsインスタンスがOCI Document Understandingと統合されていることを管理者に確認します。
分析するドキュメントを参照するデータセットを準備し、Oracle Analyticsにアップロードします。OCI Document Understandingモデルによる分析対象のドキュメントの作成を参照してください。

Oracle Analyticsのホーム・ページで、「作成」をクリックし、「データ・フロー」をクリックします。
分析するドキュメントにリンクしているデータセットを選択し、「追加」をクリックします。

図oci_du_files11.pngの説明
データ・フロー・エディタで、「ステップの追加」(+)をクリックします。
「データ・フロー・ステップ」ペインで、AIモデルの適用をダブルクリックし、使用するモデルを選択します。

図oci_du_files14.pngの説明

たとえば、事前トレーニングされたドキュメント分類を選択して、パスポートを識別できます。
「AIモデルの適用」で、「入力」セクションに移動し、「入力列」および「入力タイプ」パラメータを構成します。
- バケットごとにソース・ドキュメントを参照する場合は、「入力列」で「URL」を選択し、「入力タイプ」で「バケット」を選択します。
  
  図vision_parameters.pngの説明
- ソース・ドキュメントを個別に参照する場合は、「入力列」で「ファイルの場所」を選択し、「入力タイプ」で「ドキュメント」を選択します。
OCI Document Understandingモデルのパラメータ・オプションを参照してください。
データ・フロー・エディタで、「ステップの追加」(+)をクリックして「データの保存」選択します。
「名前」に、出力データセットの名前を入力します。
たとえば、データセット'パスポート識別分析結果'を呼び出すことができます。
「データ保存先」フィールドに、出力データセットの場所を指定します。
「保存」をクリックし、データ・フローの名前を入力して、「OK」をクリックします。
「データ・フローの実行」をクリックします。

データ・フローで分析が完了したら、ステップ7で指定したデータセットを開きます。

生成されたデータセットを見つけるには、Oracle Analyticsホーム・ページから、「データ」、「データセット」の順に移動します。
oci_du_files13.pngの説明が続きます
図oci_du_files13.pngの説明

生成された結果の詳細は、OCIドキュメント理解モデルに対して生成される出力データを参照してください。