ドキュメント分類およびキー値抽出の実行

事前トレーニング済OCI Document Understandingモデルを使用して、機械学習(ML)や人工知能(AI)の専門知識なしで、ドキュメント分類およびキー値抽出をアプリケーションに組み込みます。たとえば、ドキュメント分類を使用して、パスポート、運転免許、領収書および請求書を識別します。

ノート: OCI Document Understandingは現在英語のみをサポートしています。「Document Understandingの制限」を参照してください。

事前トレーニング済モデルのドキュメントが10,000未満の場合、またはカスタム・モデルのドキュメントが2,000未満の場合、単一データ・フローで処理できます。この上限を超える場合は、個別のデータ・フローを作成して各バケットを処理(つまり、バケットごとに個別のデータセットを使用)し、シーケンスを使用してデータ・フローを順番に処理します。データ・フローのシーケンスを使用したデータの処理を参照してください。

前提条件:

Oracle AnalyticsインスタンスがOCI Document Understandingと統合されていることを管理者に確認します。
分析するドキュメントを参照するデータセットを準備し、Oracle Analyticsにアップロードします。OCI Document Understandingモデルによる分析対象のドキュメントの作成を参照してください。

ホーム・ページで、「作成」、「データ・フロー」の順にクリックします。
分析するドキュメントにリンクしているデータセットを選択し、「追加」をクリックします。

.pngの説明
データ・フロー・エディタで、「ステップの追加」(+)をクリックします。
「データ・フロー・ステップ」ペインで、AIモデルの適用をダブルクリックし、使用するモデルを選択します。

.pngの説明

たとえば、事前トレーニングされたドキュメント分類を選択して、パスポートを識別できます。
「AIモデルの適用」で、「入力」セクションに移動し、「入力列」および「入力タイプ」パラメータを構成します。
- バケットごとにソース・ドキュメントを参照する場合は、「入力列」で「URL」を選択し、「入力タイプ」で「バケット」を選択します。
  
  .pngの説明
- 個別にソース・ドキュメントを参照する場合は、「入力列」で「ファイルの場所」を選択し、「入力タイプ」で「ドキュメント」を選択します。
OCI Document Understandingモデルのパラメータ・オプションを参照してください。
データ・フロー・エディタで、「ステップの追加」(+)をクリックし、「データの保存」を選択します。
「名前」に、出力データセットの名前を入力します。
たとえば、データセット'パスポート識別分析結果'を呼び出すことができます。
「データ保存先」フィールドに、出力データセットの場所を指定します。
「保存」をクリックし、データ・フローの名前を入力して、「OK」をクリックします。
「データ・フローの実行」をクリックします。

データ・フローで分析が完了したら、ステップ7で指定したデータセットを開きます。

生成されたデータセットを見つけるには、Oracle Analyticsホーム・ページから、「データ」、「データセット」の順に移動します。
GUID-D4540502-D2A4-43CB-B023-E9F27C43579E-default.pngの説明が続きます
.pngの説明

生成された結果の詳細は、OCI Document Understandingモデルに生成された出力データを参照してください。