モデルの有効性の解釈

モデルを作成したら、それを評価して予測の正確さを判別します。たとえば、Naive Bayesスクリプトがサンプル・データに対して二項分類を実行する方法を評価して、これを使用するか別のスクリプトを使用するかを決定できます。

トレイン・モデル・データ・フローを実行すると、モデルの解釈および調整に使用する出力が生成されます。
  1. 「ナビゲータ」アイコンをクリックして「機械学習」を選択します。
    「機械学習」に「スクリプト」および「モデル」の各タブが表示されます。
  2. トレイン・モデル・データ・フローの出力を表示するには、「モデル」を表示します。
    すべてのモデルが表示されます。
  3. モデルのメニュー・アイコンをクリックして「検査」オプションを選択します。
    これにより、「一般」「品質」および「関連」の3つのタブが表示されます。
  4. (オプション)「一般」をクリックします。
    このページには、モデルに関する次の情報が表示されます。
    • 予測 - モデルが予測しようとしているものの名前(たとえば、IncomeLevelについての何か)。

    • トレーニング対象 - モデルのトレーニングに使用しているデータ・セットの名前。

    • スクリプト - モデルで使用されているスクリプトの名前。

    • クラス - スクリプトのクラス(例: 二項分類)。

  5. (オプション)「品質」をクリックします。
    トレーニング・データ・セットの(構成可能な)一部は検証の目的で確保されています。モデルが構築されるときに、これは既知のラベルがある検証データ・セットに適用されます。精度やリコールといった各種のメトリック・セットは実績(ラベル)および予測値に基づいて計算されます。情報はマトリックスとしても表示され、これは、検証中に見つかった内容のごく簡単な要約を提供するのに使用できます。たとえば、検証データにおいて給与が$50,000を超えるのは特定のパーセンテージ(X)の人であるのに対し、モデルでは給与が$50,000を超えるのはY%の人と予測した、などです。

    「品質」ページに表示される内容は次のとおりです。

    • 標準メトリックスのリスト。ここに表示されるメトリックは選択されたモデルに関連したものです。各メトリックは、トレイン・モデルが適用される選択されたデータ・セット列の予測精度という観点からモデルがどれほど適切かを判断するのに役立ちます。

      たとえば、だれかの給与が$50,000を超える可能性が高い場合に、所得レベル列を(各人の他の値の範囲に基づいて)モデリングして予測できます。

    • マトリックスには、予測を作成するのに使用されたデータの状態が表示されます。

      マトリックスでは実際の値と予測値が対比され、予測値が実際の値に近いかどうかを知るのに役立ちます。

    この情報を使用してモデルに戻り、必要に応じて変更を加えることができます。

  6. (オプション)「関連」をクリックします。
    「関連」タブには、機械学習スクリプトによって作成されたデータ・セットが表示されます。データ・セットには、上級ユーザー(データ・サイエンティスト)がモデルを理解するために使用できるスクリプト・ロジックに関連した特定の情報が含まれています。
    このページには、次のトレーニング・データが表示されます。
    • トレーニング・データ - モデルのトレーニングに使用されているデータ・セット。

    • 生成データ - スクリプトにより作成された、トレーニング・モデルで使用するデータ・セット(例: obiee.CART.train)。モデルのトレーニングに他のスクリプトを選択した場合、表示されるデータ・セットは異なる可能性があります。