構成

「構成」ページを使用して、データ・セットのアップロードとダウンロード、タクソノミの作成と編集、ナレッジ・ベースの作成と改善、追加属性の定義、分類の実行、および様々なアクティビティのモニターを行うことができます。

構成ページでは、次のことができます:

支出トランザクションの分類に使用するタクソノミを設定します。これには、既存の購買カテゴリ、それらのカテゴリの改訂バージョンまたは新しいタクソノミを指定できます。
トレーニング・セットを作成します。トレーニング・セットは、支出分類機械学習エンジンが個々の支出レコードのデータに基づいてカテゴリ予測を行うために使用する、正しく分類されたデータのサンプルです。
研修データ・セットからナレッジ・ベースを作成します。ナレッジ・ベースでは、トレーニング・セット内で識別されたパターンを使用して一連のデータを処理するアルゴリズムが使用されます。
ナレッジ・ベースを作成してテストした後、支出分類を使用して、誤って分類されたデータまたは分類されていないデータを含む任意の数のバッチを処理できます。
バッチ結果をレビューします。支出分類では、評価時に役立つ信頼度が高い、中または低いすべての予測にタグ付けされます。必要な修正を行い、バッチを承認できます。
バッチの詳細を表示する前に、ESSジョブを実行して索引定義を作成し、fa-prc-poiを入力パラメータとして使用してOSCSへの初期取込みスケジュール済プロセスを実行します。このプロセスにより、Oracle Search Cloud Service (OSCS)によって提供される索引ベースの検索エンジンの索引が作成されます。このプロセスが完了すると、スマート・フィルタを使用してバッチを集中的にレビューできます。フィルタ・チップを使用して、特定のカテゴリまたは異なる分類ステータスのトランザクションを検索することもできます。

ノート: Oracle Spend Classificationにアクセスするには、次の権限を持つ構成済ジョブ・ロールが必要です:

費用分類アプリケーションの管理(POI_ADMINISTER_SPEND_CLASSIFICATION_PRIV)
費用分類バッチの管理(POI_MANAGE_SPEND_CLASSIFICATION_BATCH_PRIV)
費用分類作業領域の表示(POI_SPEND_CLASSIFICATION_WORKAREA_PRIV)

分類管理

「分類管理」タブで構成できる値は次のとおりです:

パラメータ	摘要
確度しきい値パーセント	トランザクションを分類する信頼度の値を示すパーセント値。高確度で分類: タクソノミのすべてのレベルで、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を超える場合のトランザクション。中確度で分類: タクソノミの1つ以上のレベルで(ただし、すべてのレベルではない)、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を超える場合のトランザクション。低確度で分類: タクソノミのすべてのレベルで、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を下回る場合のトランザクション。デフォルト値は、70です。
レクサー名	データ・マイニング・プロセスの使いやすさを改善するために使用するレクサーの名前。キーワードを使用してトランザクションの文字列を分割し、データ・マイニングで使用する方法を識別するために使用されます。次のものを使用できます。基本的なレクサー: 英語でデータを含みます。デフォルト値です。ワールド・レクサー: 英語以外の言語のデータが含まれます。
レクサー・パラメータ	データ・マイニングで使用されるキーワードを示すパラメータ。デフォルトは次のとおりです: INDEX_STEMS、英語、INDEX_TEXT、基本レクサーの場合はYES MIXED_CASE、ワールド・レクサーにはNO。

パラメータ

摘要

確度しきい値パーセント

トランザクションを分類する信頼度の値を示すパーセント値。

高確度で分類: タクソノミのすべてのレベルで、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を超える場合のトランザクション。
中確度で分類: タクソノミの1つ以上のレベルで(ただし、すべてのレベルではない)、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を超える場合のトランザクション。
低確度で分類: タクソノミのすべてのレベルで、予測カテゴリの確度が、「確度しきい値パーセント」で指定された値を下回る場合のトランザクション。

デフォルト値は、70です。

レクサー名

データ・マイニング・プロセスの使いやすさを改善するために使用するレクサーの名前。キーワードを使用してトランザクションの文字列を分割し、データ・マイニングで使用する方法を識別するために使用されます。次のものを使用できます。

基本的なレクサー: 英語でデータを含みます。デフォルト値です。
ワールド・レクサー: 英語以外の言語のデータが含まれます。

レクサー・パラメータ

データ・マイニングで使用されるキーワードを示すパラメータ。デフォルトは次のとおりです:

INDEX_STEMS、英語、INDEX_TEXT、基本レクサーの場合はYES
MIXED_CASE、ワールド・レクサーにはNO。

印刷結合が有効なナレッジ・ベースでのデータセットの分類

印刷結合文字は、インデックス・トークンに含める英数字以外の文字であるため、読取り専用などの複合語は、2つの個別の単語(読取りのみ)ではなく、読取り専用として索引付けされます。印刷結合設定は、辞書レベルの分類コントロールで指定できます。

ノート: この設定は、エキスパート・データ・サイエンティストなどの上級ユーザーが管理する必要があります。これはオプションの設定であるため、この拡張機能を使用せずに費用分類の処理を続行できます。

この例では、印刷結合の使用と分類プロセスへの影響について説明します。

「分類管理」タブに移動し、次の値を入力または選択します:
- 分類しきいパーセント: 70
- 字句名: 基本
- レクサ・パラメータ: INDEX_STEMS,ENGLISH, INDEX_TEXT,YES, PRINTJOINS,-
「レクサ・パラメータ」フィールドにPRINTJOINSと入力し、ハイフンが単語のセパレータとみなされないようにします。

トークン化中にスキップする特殊文字を含むトランザクションを含むトレーニング・データ・セットをアップロードします。トランザクション摘要にハイフンを使用するSpend001トレーニング・データ・セットのスニペットを次に示します:

ソース・トランザクションID	データ・セット識別子	データ・セット目的	トランザクション番号	明細番号	トランザクション摘要	カテゴリ
10001	Spend001	トレーニング	30049	1	新規採用従業員長期オン・サイト割当のためのラップトップ購入	ハードウェア
10002	Spend001	トレーニング	89987	1	期間シート準備および年度末レポートのためのコンサルティング・サービス	Consulting
10003	Spend001	トレーニング	87782	1	法人イベントの留保者	法律業務
10004	Spend001	トレーニング	99012	1	長期オン・サイト割当の出張チケット	プロジェクト支出

「ナレッジ・ベース」タブで、KB001という名前の新しいナレッジ・ベースを作成します。
「データ・セット」タブで、トレーニング・データ・セットSpend001を選択し、オプションから分類をクリックします。データ・セットの分類ウィンドウで、KB001ナレッジ・ベースを選択してデータ・セットを分類し、分類プロセスを開始します。

分類結果の分析を次に示します:

トランザクション摘要	重要なキーワード	印刷結合なしのカテゴリ予測	印刷結合によるカテゴリ予測
長期プロジェクト・サービスの日当(年長)	期間、サービス、年	Consulting
長期プロジェクト・サービスの日当(年長)	長期、従業員		ハードウェア

Printjoins lexerパラメータを使用すると、長期的などのハイフン付きワードは個々のキーワードに分割されず、カテゴリ予測がより正確になりました。