機械学習機能

機械学習の問題は、マイニング機能に分類されます。機械学習のそれぞれのファンクションによって、モデル化と解決が可能な問題のクラスを指定します。機械学習機能は、一般に教師ありと教師なしという2つのカテゴリに分けられます。教師あり学習、教師なし学習という概念は、データ・サイエンスの1分野である機械学習学に由来しています。

アルゴリズム

アルゴリズムとは、特定の種類の問題を解決するための数学的手続きです。一部の機械学習手法では、複数のアルゴリズムから選択できます。

各アルゴリズムは、様々な特性を持つ特定のタイプのモデルを生成します。機械学習の問題には、複数のアルゴリズムを組み合せて使用すると最適に解決できるものがあります。たとえば、初めに特徴抽出モデルを使用して1組の最適化された予測子を作成し、続いて分類モデルを使用してその結果に対する予測を作成するといった方法があります。

教師あり学習

教師あり学習は、指示あり学習とも呼ばれます。この種の学習プロセスは、既知である従属属性またはターゲットからの指示を受けます。

教師あり機械学習では、ターゲットの動作を一連の独立属性や予測子の機能として説明するように試みます。教師あり学習は、通常、予測モデルに帰着します。

教師ありモデルの作成には、トレーニングという、ターゲット値が既知である多数のケースをソフトウェアで分析するプロセスが伴います。トレーニング・プロセスでは、モデルは予測を可能にするデータのパターンを"学習"します。たとえば、販促に反応しやすい顧客の識別を目的とするモデルは、過去に販促に反応した、または反応しなかったと認識されている多数の顧客の特性を分析することによって、トレーニングされている必要があります。

Oracle Machine Learningでは、次の教師あり機械学習機能をサポートしています。

表1-1 教師あり機械学習機能

機能 説明 問題例 サポートされるアルゴリズム
特徴の選択または属性評価 ターゲット属性の予測において最も重要な属性を識別する。 提携カード・プログラムに対する顧客の反応を指定し、最も重要な予測子を検出する。
分類 個々のクラスに項目を割り当て、ある項目が属するクラスを予測する。 1群の顧客に関する人口統計データを指定し、提携カード・プログラムに対する顧客の反応を予測する。
回帰 連続する値を概算および予測する。 1群の顧客に関する人口統計データおよび購入データを指定し、顧客の年齢を予測する。
ランキング ある項目の確率を他の項目に対して予測する 閲覧履歴に基づいてオンライン顧客に製品をお薦めする XGBoost
時系列 等間隔の時点で取得されたターゲット値の既知の履歴に基づいてターゲット値を予測する 海の波の長さを予測し、コスト、在庫要件、顧客満足度を見積るなどの戦術的な問題に対処する。 指数平滑法

教師なし学習

教師なし学習は、指示を受けません。従属属性と独立属性は区別されません。モデルの作成においてアルゴリズムを導く既知の結果は存在しません。

教師なし学習は、記述目的で使用できます。教師なし学習での目標は、パターン検出です。また、予測の作成にも使用できます。

Oracle Machine Learningでは、次の教師なし機械学習機能をサポートしています。

表1-2 教師なし機械学習機能

機能 説明 問題例 サポートされるアルゴリズム
異常検出 "通常の"データの特性を満たさない行(ケース、例)を識別する 一群の顧客に関する人口統計データを前提として、データセットの異常な顧客の購買行動(詐欺を示唆する可能性があるもの)を識別する。
相関 データ内で同時発生する傾向にある項目を検出し、その同時発生の原則となるルールを特定する。 一緒に購入される傾向にある項目群を検出し、その関係性を特定する。 Apriori
クラスタリング データ内で自然なグループを検出する。 人口統計データを複数のクラスタに分割し、ある個人が特定のクラスタに属する確率をランク付けする
特徴抽出 元の属性の一次結合を使用して、新しい属性(特徴)を作成する。 一群の顧客に関する人口統計データを前提として、元の属性をより少ない新しい属性に変換する。
行重要度 行重要度の手法は、大規模なデータセットのディメンション性低減に使用されます。行重要度により、データ・セットの最も影響力のある行を特定します。 データ・セットを前提として、モデル構築の前に最小重要度の値を満たす行を選択する。 cur行列分解