データ・セット
データ・セットは、支出分類アプリケーションによって処理されるソース・データの格納に使用されます。 アプリケーションでは、次のタイプのデータ・セットがサポートされています。
-
未使用
-
トレーニング
-
Classification
未使用のデータ・セット
未使用のデータ・セットは、支出分類にロードされ、トレーニング目的ではまだ分類も使用もされていない回収トランザクション・レコードです。
トレーニング・データ・セット
トレーニング・データ・セットは、すでに正確に分類されている高品質の支出トランザクション・レコードのコレクションであり、特定のカテゴリに分類される購買で一般的に使用される様々な摘要、品目参照、サプライヤ、サイト、価格キーワードの適切な例を提供します。 たとえば、デザートの支出を分類するためのトレーニング・データ・セット・レコードには、Chocolate cake、Meringue tartおよびBlack Forestのトランザクションが含まれる場合があります。
支出分類では、トレーニング・データ・セットを使用して、分類が不正な支出データまたは分類されていない支出データの支出カテゴリの予測に使用できるデータ・パターンを識別するために使用されるナレッジ・ベースを構築します。
支出分類の実装中に、反復プロセスを使用してトレーニング・データ・セットの品質を徐々に改善し、それによってツールからの結果を改善することが期待されます。 通常、一連の支出トランザクションが分類された後、結果をレビューし、分類エラーを使用して、特定のカテゴリに使用されるトレーニング・データの変更または追加を特定します。
トレーニング・データ・セットを作成するには、次の2つの方法があります。
-
トレーニング・データを最初から作成して、支出分類にインポートできます。
-
手動分類用の個別のトランザクションの例の一部を識別するために、支出トランザクション・レコードの既存データ・セットを分析するユーティリティが用意されています。
トレーニング・データ・セットを構成する適切なデータ・セットには、次の特性が必要です。
-
アプリケーションで適切なカテゴリを高い精度で予測できるように、堅牢なナレッジ・ベースを構築するには、リーフ・ノードごとに多数の例が必要です。
-
この例は、トランザクションを特定のカテゴリに分類するために必要なすべてのバリエーションを表す必要があります。 たとえば、現在使用されている分類プロセスで品目摘要、価格、サプライヤ、サプライヤ・サイト、購買オーダーの金額および請求書が考慮される場合、トレーニング・データ・セットには、使用される各カテゴリ・コードの支出トランザクションを示す値をカバーする例が含まれている必要があります。 各カテゴリのサンプル・トランザクションを取得し、トランザクション表に存在するすべてのカテゴリに対して同じステップを繰り返す必要があります。 これは、同じ品目またはサービスを異なる方法でユーザーがオーダーできるためです。 効果的なナレッジ・ベースを構築するには、このような考えられるすべてのトランザクションでナレッジ・ベースをトレーニングして、分類プロセス中にキーワードを正しく選択できるようにすることが理想的です。
-
データには参照整合性が必要です。 つまり、使用されるデータは、常に、インスタンス内に存在する有効なカテゴリへの参照を持つ必要があります。
分類データ・セット
分類データ・セットは、支出カテゴリ予測を生成するために処理された同様のタイプの支出トランザクション・レコードのコレクションです。 これらの予測における予測およびシステムの確度がバッチに格納されます。
データ・セットから処理および分類できる支出トランザクションの最大数は100,000レコードです。 分類のためにデータ・セットが選択されている場合、ユーザーは、生成される分類バッチが最大サイズを超えないように、ビジネス・ユニットおよび日付フィルタを適用できます。
タクソノミへの分類のためにデータ・セット内のレコードのサブセットが選択されている場合、次回、同じタクソノミに対する分類のためにデータ・セットが選択されると、まだ分類されていないレコードのみが選択可能になります。 たとえば、データ・セットに、2019年と2020年の組織の購買アクティビティの140,000件の支出データ・レコード(2019年の80,000件のレコードと2020年の60,000件のレコード)が含まれている場合、ユーザーは2019年のすべてのトランザクションをタクソノミ1への分類用に選択できます。 これにより、2019年の80,000件のレコードが処理されます。 次回タクソノミ1への分類のためにデータ・セットを選択する場合、2020年の60,000件のレコードのみが使用可能になります。 ただし、140,000件のすべてのレコードは、引き続きタクソノミ2、3、4または5への分類用に使用できます。
シード済分類データ・セット
アプリケーションによって生成されたトランザクションの処理に使用される支出分類には、4つのシード・データ・セットがあります。
これらは、購買依頼、購買オーダー、請求書、経費のデータ・セットです。 これらのデータ・セットは、ユーザーがアプリケーション内でトランザクションを入力および処理することで自動的に拡張されるため、一意です。 たとえば、管理者は、2020年12月31日のタクソノミ#1への分類のために、購買依頼データ・セットの2019年と2020年の160,000件のすべてのトランザクションを処理する2つのバッチを作成します。 2021年1月に、ユーザーが別の10,000件の購買依頼を入力して処理します。 管理者が2021年1月31日の分類のためにデータ・セットを選択すると、10,000件の新しいトランザクションが、タクソノミ1への分類で使用可能になります。 また、170,000件の累計トランザクションが、タクソノミ2、3、4または5への分類で使用可能になります。
これらのシード済データ・セットには同じ処理制限が適用されるため、購買依頼、購買オーダー、請求書または経費から生成される分類バッチのサイズは100,000レコードを超えることはできません。 また、同じ選択プロセスがこれらのデータ・セットのレコードに適用されるため、1つのレコードは、特定のタクソノミへの分類のための1つのバッチにのみ含めることができます。
データ・セットの管理
「データ・セット」タブでは、データ・セットの検索、データ・セットのリセット、ナレッジ・ベースの作成、ナレッジ・ベースの改善、分類実行の発行、およびサポートされているファイル形式(タブ区切りファイル)の支出データのアップロードまたはダウンロード、およびデータ・セット・アクティビティ・ログのモニターを実行できます。 該当する検索基準を使用して、データ・セットを検索します。 データ・セットが見つかったら、データ・セット全体をダウンロードするか、ビジネス・ユニットや日付範囲などのフィルタを使用して特定のトランザクション・セットをダウンロードします。
データ・セットのインポート
データ・セットをインポートするには、次のステップに従います。
-
「費用分類」作業領域で、「アップロード」をクリックします。
-
「スケジュール済プロセス」ページで、「新規プロセスのスケジュール」をクリックし、「インポートのためのインタフェース・ファイルのロード」ジョブを選択します。
-
「プロセス詳細」ページで、「データ・セットのインポート」インポート・プロセスを選択し、データ・ファイルをアップロードしてジョブを送信します。
インポートが成功したら、データを検索して表示できます
データ・セットのコピーの作成
既存のユーザー生成データ・セットのコピーを作成して、新しいデータ・セットを作成します。 これは、購買依頼、購買オーダー、請求書、経費などのシード済データ・セットではサポートされていません。
- データ・セットのメニュー・オプションで「コピー」をクリックします。ノート: 元のデータ・セットのアクティビティ・ログには、コピー処理のステータスが表示されます。
- 名前を入力して新しいデータ・セットの目的を選択し、「作成」をクリックします。
- 新しいデータ・セットの作成後、「構成」ページをリフレッシュし、データ・セットのリストでそれを確認できます。
サンプル・トレーニング・セットの作成
データ・セットには多数のトランザクションがあり、すべてのトランザクションを手動で分類することはできません。 そのため、トランザクションのサブセットを手動で分類します。 ただし、手動で行う場合、分類するトランザクションを選択することが困難な作業になる場合があります。 また、データのサイズを小さくしようとするときに、トランザクションを分類するための適切な候補を見逃す可能性もあります。 費用分類では、サンプル・トレーニング・データ・セットを作成すると、最も一意の様々なトランザクションが抽出されます。 その後、このサンプル・トレーニング・セットをダウンロードして、トランザクションを手動で分類し、異なる名前でアップロードしてトレーニング・データ・セットを確定できます。
サンプル・トレーニング・データ・セットを作成するには、次のステップに従います。
-
「構成」ページの「データ・セット」タブで、データ・セットのメニューをクリックし、「サンプル・トレーニング・セットの作成」を選択します。
-
「サンプル・トレーニング・セットの作成」ダイアログ・ボックスで、次の手順を実行します。
- データ・セットに名前を付けます
- オプションで、ビジネス・ユニットを選択します。
- オプションで、「日付: 自」と「日付: 至」を入力して日付範囲を指定します。
- データ・セットからトレーニング・データ・セットのボリュームとして抽出するトランザクション数の割合を決定するサンプリング・ボリューム・パーセント。 通常、これは約10%です。 「トランザクションの取得」をクリックして、サンプル・ボリュームの割合に基づいてサンプル・トレーニング・セットに表示されるトランザクションの概算数を取得します。
- 上級ユーザーは、これらのオプションを使用して、要件に従ってサンプル・トレーニング・セットを作成できます。
-
距離ファクタ: クラスタ内の2つのキーワード間の距離を決定するために使用される方法。 クラスタとは、相互に類似しているオブジェクトのグループです。 データ・マイニングでは、オブジェクト機能を記述するディメンションで、類似度が距離として測定されます。
-
クラスタ・サイズ: クラスタとしてグループ化される類似オブジェクトの数を示すラベル。
-
-
「作成」をクリックします。
データ・セットのリセット
分類プロセス後にデータ・セットを再分類するには、支出エンジンによって適用可能なトランザクションまたはデータ・セットにスタンプされている現在の分類コードを削除する必要があります。 このアクティビティは、リセット処理を使用して実行できます。 データ・セットを分類したがリセットしていない場合、リセット処理が有効になります。 ただし、トレーニング・データ・セットを分類していないと、リセット処理は無効になります。 分類されたトランザクションがデータ・セットに少なくとも1つある場合、リセット処理が有効になります。
データ・セットまたは複数のデータ・セットを選択し、リセット処理をクリックします。 適切なタクソノミを選択し(複数のタクソノミを使用してトランザクションを分類する柔軟性があるため)、特定のタクソノミの分類コードを削除します。 データ・セットの分類に使用したタクソノミのみを、リセットに使用できます。
リセットは、すべてのカテゴリ予測を削除するため、特殊な状況でまれに使用される必要があります。 データ・セットをリセットした場合、データ・セットにすでに作成されているバッチは影響を受けませんが、データ・セットをリセットすると、分析アプリケーションで、カテゴリ予測の使用可能な承認済バッチが使用できなくなります。
トランザクションは最大5つのタクソノミを使用して分類でき、別のタクソノミでデータ・セットを分類する場合は、リセットする必要はありません。 リセットは、トランザクションが同じタクソノミを使用して再分類する必要がある場合にのみ必要です。