8 相関

教師なしデータ・マイニング手法である相関を通じて相関ルールを検出する方法を学習します。

8.1 相関とは

相関は、ある集合内の項目が同時に発生する確率を見つけるOracle Data Mining for SQL機能です。

同時に発生する項目間の関係は、相関ルールで表されます。

8.1.1 相関ルール

データ内の相関のパターンを識別します。

相関モデルの結果は、データ内の相関のパターンを識別するルールです。Oracle Data Mining for SQLは、相関モデルのスコアリング操作をサポートしていません。

相関ルールは次のように適用できます。

  • 支持度: 各項目がデータで同時に発生する頻度。
  • 信頼度: 前件を含むトランザクション内で後件が発生する頻度。
  • : 項目相関に結び付けられるビジネス価値の大きさ

8.1.2 マーケット・バスケット分析

相関ルールは、よく販売トランザクションの分析に使用されます。たとえば、食料品店でシリアルを購入する顧客は同時に牛乳も購入することが多いことがわかっているとします。実際に相関分析を行うと、精算時にシリアルと牛乳の両方が含まれている確率は85%である、という結果が得られます。この関係は、次のルールで表すことができます。

Cereal implies milk with 85% confidence 

相関モデルのこうした応用は、マーケット・バスケット分析と呼ばれています。マーケット・バスケット分析は、ダイレクト・マーケティングや販促活動、ビジネス上の傾向の把握などに役立ちます。また、店舗レイアウト、カタログのデザイン、抱合せ販売などにも活用できます。

8.1.3 相関ルールとE-Commerce

別分野での相関ルールの適用について学習します。

相関モデルは、その他の分野でも重要な用途に応用されています。たとえば、E-Commerceにおいて、Webページのパーソナライズに相関ルールを使用することがあります。相関モデルから、ページAとページBにアクセスするユーザーは70%の確率で同じセッション内でページCにアクセスすることがわかったとします。このルールに基づいて、ページCに関心を持ちそうなユーザー向けに動的なリンクを作成することが可能です。この相関ルールは次のように表します。

A and B imply C with 70% confidence 

関連項目

8.2 トランザクショナル・データ

マーケット・バスケット・データとも呼ばれるトランザクショナル・データについて学習します。

他のデータ・マイニング機能と異なり、相関はトランザクションに基づくマイニング機能です。トランザクション処理では、清算カウンタにおけるマーケット・バスケットの内容などの項目の集まりがケースに含まれます。トランザクションの項目の集まりが、そのトランザクションの1つの属性です。トランザクションに関連するタイムスタンプやユーザーIDなどがその他の属性となります。

マーケット・バスケット・データとも呼ばれるトランザクショナル・データは、レコード(行)のセットでケースが構成されるため、複数レコード・ケースの形式であると言えます。たとえば、次の図で、ケース11は3つの行で構成され、ケース12および13はそれぞれ4つの行で構成されています。

図8-1 トランザクショナル・データ

図8-1の説明が続きます
「図8-1 トランザクショナル・データ」の説明

トランザクショナル・データ以外のデータは、単一レコード(行)でケースが構成されるため、単一レコード・ケースの形式であると言えます。Oracle Data Mining for SQLでは、トランザクショナルまたはトランザクショナル以外のどちらか、または2次元データ形式を使用して相関モデルを作成できます。データがトランザクショナルではない場合、データ・マイニング・アクティビティを実行する前に、ネストした列に変換してトランザクショナルにできます。トランザクショナル形式は通常の形式ですが、相関ルール・モデルは2次元入力形式を受け入れます。トランザクショナル以外の入力形式の場合、ケースID列以外のすべての列のコンテンツのそれぞれ異なる組合せが一意の項目として扱われます。

8.3 相関のアルゴリズム

Oracle Data Mining for SQLは、Aprioriアルゴリズムを使用して、高頻度項目セット内の項目に関する相関ルールを計算します。

関連項目