データセットの作成
ドキュメント・カスタム・モデルは、データ・サイエンスのバックグラウンドを持たないDocument Understandingユーザーを対象としています。
概要
データセットを作成し、データセットに基づいてモデルをトレーニングするようにDocument Understandingに指示することで、シナリオに対応したカスタム・モデルを作成できます。カスタム・キー値抽出では、会社コード、日付、合計など、トレーニング済モデルで抽出しようとしているフィールドにラベルが付けられた一連のドキュメントが必要です。カスタム・ドキュメント分類では、ジョブ応募、推薦状、経歴チェック・レポートなど、ドキュメントごとに注釈が付けられたドキュメント・クラスのドキュメント・セットが必要です。
データセットを作成するためのツール
有用なカスタム・モデルを構築する鍵は、適切なデータセットを使用してそれを準備し、トレーニングすることです。OCIデータ・ラベリングを使用してデータセットを作成してラベル付けすることをお薦めします。次に、実行するステップの概要を示します。
- 目的のアプリケーションの配布と一致する十分なドキュメントを収集します。
- 必要なカスタム・モデルの正しい注釈形式を選択します。すべてのDocument Understandingモデルは、カスタム・キー値抽出にキー値注釈を使用するか、カスタム・ドキュメント分類に単一ラベル分類を使用して、
Document
注釈形式でサポートされます。 - ソース・データセットで発生するフィールドまたはドキュメント・クラスのすべてのインスタンスにラベルを付けます。
詳細は、データ・ラベリング・ガイドおよびデータセットの作成のステップを参照してください。キー値データセットの作成と注釈付けについては、ビデオ・チュートリアルも参照してください。
データ収集のガイドライン
- トレーニング・データセットに予想されるバリエーションを含める
- バリエーションが必要な場合は、トレーニング・データセットの各バリエーションの少なくとも1つの例を用意してください。たとえば、従業員応募フォームで、全ての応募者に照会先電話番号フィールドが入力されているわけではないと思われる場合は、照会先電話番号フィールドを除く全てのフィールドが入力されているフィールドに加えて、全てのフィールドが入力されている例を1つ含めます。
- データセット・サイズを最小サイズより大きくします
- カスタム・キー値の抽出には5つ以上のドキュメントが必要で、カスタム・ドキュメント分類には10以上のドキュメントが必要です。データセットを増やすと、モデルのパフォーマンスが向上します。次の表に、ターゲットとなる正確性、ドキュメントのバリエーションおよびドキュメント・タイプに基づく、推奨される最小ドキュメント数を示します。
カスタム・キー値抽出のタイプおよび精度別推奨文書数 ドキュメントのタイプ 最小目標精度(フィールドレベルの推定精度) 研修記入票の変動 推奨最小ドキュメント数 詳細情報 デジタル 90% すべてのラベルが存在します。 15 関心のあるフィールドはすべての文書に存在します。 デジタル 95% すべてのラベルが存在します。 30 関心のあるフィールドはすべての文書に存在します。 デジタル 85% すべてのラベルが存在しません。 15 関心のあるフィールドが一部のドキュメントにない場合があります。 デジタル 90% すべてのラベルが存在しません。 30 関心のあるフィールドが一部のドキュメントにない場合があります。 デジタル 95% すべてのラベルが存在しません。 50 ドキュメントが非標準解像度およびDPIを持つことができる場合。 スキャン 85% すべてのラベルが存在します。 手書きテキストの最小値または最小値。
15 関心のあるフィールドは、ドキュメントの読みやすさが高いすべてのドキュメントに存在します。 スキャン 95% すべてのラベルが存在します。 30 回転およびグラフィカル要素を含むイメージ(スタンプまたは選択マーク)。 モビール 80% すべてのラベルが存在します。 手書きテキストの最小値または最小値。
15 関心のあるフィールドは、ドキュメントの読みやすさが高いすべてのドキュメントに存在します。 モビール 85% すべてのラベルが存在するか、すべてのラベルが存在しません。 最小または手書きテキストなし
.30 ドキュメントのローテーションが高い場合、非標準解像度およびDPI。 モビール 90% すべてのラベルが存在するか、すべてのラベルが存在しません。 最小または手書きテキストなし
.50 回転およびグラフィカル要素を含むイメージ(スタンプまたは選択マーク)。 文書分類のタイプおよび精度別推奨文書数 ドキュメントのタイプ 最小目標精度(フィールドレベルの推定精度) 研修記入票の変動 推奨最小ドキュメント数 詳細情報 デジタル/スキャン/モバイル 90% クラスのすべての文書に同じテンプレートがあります。たとえば、請求書区分には、1つのショップまたは組織の文書を含めることができます。
15 すべてのドキュメントにラベルが付けられます。 記載されているドキュメントの数は、1つのクラスに対するものです。
たとえば、データセットに分類されるクラスが5つあり、推奨ドキュメント数が15の場合、ドキュメントの総数は75 (15*5)になります。デジタル/スキャン/モバイル 75% クラスのドキュメントには様々なテンプレートがあります。たとえば、請求書区分には、様々なショップや組織からの文書を含めることができます。 20 すべてのドキュメントにラベルが付けられます。 記載されているドキュメントの数は、1つのクラスに対するものです。
たとえば、データセットに分類されるクラスが5つあり、推奨ドキュメント数が15の場合、ドキュメントの総数は75 (15*5)になります。デジタル/スキャン/モバイル 80% クラスのドキュメントには様々なテンプレートがあります。たとえば、請求書区分には、様々なショップや組織からの文書を含めることができます。 25 すべてのドキュメントにラベルが付けられます。 記載されているドキュメントの数は、1つのクラスに対するものです。
たとえば、データセットに分類されるクラスが5つあり、推奨ドキュメント数が15の場合、ドキュメントの総数は75 (15*5)になります。デジタル/スキャン/モバイル 90% クラスのドキュメントには様々なテンプレートがあります。たとえば、請求書区分には、様々なショップや組織からの文書を含めることができます。 35 すべてのドキュメントにラベルが付けられます。 記載されているドキュメントの数は、1つのクラスに対するものです。
たとえば、データセットに分類されるクラスが5つあり、推奨ドキュメント数が15の場合、ドキュメントの総数は75 (15*5)になります。
データの注釈に関するガイドライン
- 文書に一貫して正しく注釈を付ける
- 従業員アプリケーションのカスタム・モデルを作成し、カスタム・モデルを使用して応募者の名前を抽出するとします。名と姓を抽出する場合は、研修ドキュメントの応募者名として、氏名に関連するすべての単語(Mary Joe Smithなど)に注釈を付けます。応募者名フィールドがすべての文書に存在する場合は、すべての文書に注釈を付けます。トレーニング・ドキュメントの注釈をスキップしたり、フィールドに部分的に注釈を付けると、モデルの品質に悪影響を及ぼします。
- フィールド名とフィールド値の両方に注釈を付けます。
- モデルをよりよく学習できるようにするには、関連するキー名と値名に注釈を付けます。たとえば、ドキュメントの応募者名を抽出するには、
applicant name field
およびapplicant name value
などの2つのラベルを作成します。トレーニング・ドキュメントで、フィールド名にapplicant name field
という注釈を付け、その解答(Mary Joe Smithなど)にapplicant name value
という注釈を付けます。