Oracle Analytics予測モデルとは
Oracle Analytics予測モデルは、データ・セットに特定のアルゴリズムを適用し、値やクラスの予測をしたり、そのデータ内のグループを識別します。
Oracle Analyticsには各種アルゴリズムが組み込まれており、様々な目的での予測モデルのトレーニングに役立ちます。アルゴリズムには、分類や回帰ツリー(CART)、ロジスティック回帰、K平均法などがあります。
データ・フロー・エディタを使用して、まずトレーニング・データ・セットのモデルをトレーニングします。予測モデルのトレーニングを行ったら、予測するデータ・セットにそれを適用します。
トレーニングしたモデルを他のユーザーが使用できるようにすれば、それらのユーザーも自身のデータにそのモデルを適用して値を予測できます。場合によっては、特定のユーザーがモデルのトレーニングを行い、その他のユーザーがそのモデルを適用します。
注意:
データで探すものがわからない場合は、機械学習によって傾向とパターンを特定するExplainの使用から始めることができます。その後、データ・フロー・エディタを使用して、予測モデルの作成とトレーニングを行い、Explainが検出した傾向とパターンを掘り下げます。Explainとはを参照してください。データ・フロー・エディタを使用して、次のようにモデルをトレーニングします。
- まず、データ・フローを作成し、モデルのトレーニングに使用するデータ・セットを追加します。このトレーニング・データ・セットには、予測するデータ(売上や年齢のような値や、信用リスク・バケットのような変数など)が含まれています。
- 必要な場合は、データ・フロー・エディタを使用して列の追加や選択、結合などを行い、データ・セットを編集できます。
- そのデータがモデルのトレーニング対象であることを確認したら、データ・フローにトレーニング・ステップを追加し、分類(二項または多項)、回帰、クラスタのいずれかのアルゴリズムを選択してモデルをトレーニングします。その後、結果のモデルに名前を付けてデータ・フローを保存し、それを実行してモデルのトレーニングと作成を行います。
- 機械学習オブジェクトのプロパティを調べて、モデルの品質を判断します。必要な場合は、モデルが求める品質になるまでトレーニング・プロセスを繰り返すことができます。
完成したモデルを使用して、不明またはラベルのないデータをスコアリングし、データ・フロー内にデータ・セットを生成するか、プロジェクトに予測ビジュアライゼーションを追加します。
例
心臓病になるリスクが高い患者を予測するために、多項分類モデルを作成してトレーニングする必要があるとします。
- 年齢や性別、これまでに胸の痛みを感じたことがあるかなど、個々の患者に関する属性と、血圧や空腹時血糖、コレステロール、最大心拍数などのメトリックを含むトレーニング・データ・セットを用意します。トレーニング・データ・セットには、値absent、less likely、likely、highly likelyまたはpresentのいずれかが割り当てられた"Likelihood"という名前の列も含めます。
- 予測に値を加えない冗長な列が無視され、ターゲットの予測に役立つ列のみが識別されて使用されるため、CART (ディシジョン・ツリー)アルゴリズムを選択します。データ・フローにアルゴリズムを追加したら、「Likelihood」列を選択してモデルをトレーニングします。アルゴリズムでは機械学習を使用して、予測の実行および予測や関連データ・セットの出力に必要なドライバ列を選択します。
- 結果を調べて、トレーニング・モデルを細かく調整した後、そのモデルをより大規模なデータ・セットに適用して、心臓病にかかっている、またはかかる可能性が高い患者を予測します。