Oracle Analytics予測モデルとは

Oracle Analytics予測モデルにより、データ・セットに特定のアルゴリズムが適用され、値の予測、クラスの予測またはデータ内のグループの識別が行われます。

Oracle Analyticsには、様々な目的のために予測モデルをトレーニングするのに役立つアルゴリズムが含まれています。アルゴリズムの例としては、分類および回帰ツリー(CART)、ロジスティック回帰、K平均法などがあります。

データ・フロー・エディタを使用して、トレーニング・データ・セットのモデルを最初にトレーニングします。予測モデルをトレーニングした後で、予測するデータ・セットにその予測モデルを適用します。

トレーニング済モデルを他のユーザーが使用できるようにすると、ユーザーはそのモデルをデータに適用して値を予測できるようになります。場合によっては、特定のユーザーがモデルをトレーニングし、他のユーザーがそのモデルを適用することがあります。

ノート:

データ内の何を見るべきかわからない場合は、Explainを使用することから始め、機械学習を使用して傾向とパターンを特定できます。データ・フロー・エディタを使用して、予測モデルを作成およびトレーニングし、見つかった傾向とパターンを詳しく調べることができます。「Explainとは」を参照してください。
データ・フロー・エディタを使用して、モデルをトレーニングします。
  • まず、データ・フローを作成し、モデルのトレーニングに使用するデータ・セットを追加します。このトレーニング・データ・セットには、予測するデータ(例: 売上や年齢などの値、または信用リスク・バケットなどの変数)が含まれています。
  • 必要な場合、データ・フロー・エディタを使用して、列の追加、列の選択、結合などによってデータ・セットを編集できます。
  • データがモデルのトレーニング対象であることを確認した後、データ・フローにトレーニング・ステップを追加し、分類(バイナリまたはマルチ)、回帰またはクラスタのアルゴリズムを選択してモデルをトレーニングします。次に、作成されたモデルに名前を付け、データ・フローを保存し、それを実行してモデルをトレーニングおよび作成します。
  • 機械学習オブジェクトのプロパティを調査して、モデルの品質を判別します。必要に応じて、モデルが必要な品質に達するまでトレーニング・プロセスを繰り返すことができます。

完成したモデルを使用して、不明な(またはラベルなしの)データをスコアリングし、データ・フロー内でデータ・セットを生成するか、予測のビジュアライゼーションをプロジェクトに追加します。

たとえば、心疾患を発症するリスクが高い患者を予測するために複数分類モデルを作成してトレーニングするとします。

  1. 年齢、性別、胸痛経験の有無などの個々の患者の属性、および血圧、空腹時血糖、コレステロール、最大心拍数などのメトリックが含まれるトレーニング・データ・セットを提供します。トレーニング・データ・セットには、「尤度」という名前の列も含まれ、これには、「なし」、「可能性が低い」、「可能性がある」、「可能性が高い」、または「あり」のいずれかの値が割り当てられます。
  2. CART (ディシジョン・ツリー)アルゴリズムを使用します。これは、このアルゴリズムが予測の値を追加しない冗長な列を無視し、ターゲットの予測に役立つ列のみを識別および使用するためです。データ・フローにアルゴリズムを追加する場合、「尤度」列を選択してモデルをトレーニングします。このアルゴリズムは機械学習を使用して、出力予測と関連データ・セットを実行するために必要なドライバ列を選択します。
  3. 結果を調べて、トレーニング・モデルを微調整してから、より大きなデータ・セットにモデルを適用して、心疾患があるか発症する可能性が高い患者を予測します。