8 相関
8.1 相関とは
相関は、ある集合内の項目が同時に発生する確率を見つけるOracle Data Mining for SQL機能です。
同時に発生する項目間の関係は、相関ルールで表されます。
8.1.2 マーケット・バスケット分析
相関ルールは、よく販売トランザクションの分析に使用されます。たとえば、食料品店でシリアルを購入する顧客は同時に牛乳も購入することが多いことがわかっているとします。実際に相関分析を行うと、精算時にシリアルと牛乳の両方が含まれている確率は85%である、という結果が得られます。この関係は、次のルールで表すことができます。
Cereal implies milk with 85% confidence
相関モデルのこうした応用は、マーケット・バスケット分析と呼ばれています。マーケット・バスケット分析は、ダイレクト・マーケティングや販促活動、ビジネス上の傾向の把握などに役立ちます。また、店舗レイアウト、カタログのデザイン、抱合せ販売などにも活用できます。
8.1.3 相関ルールとE-Commerce
別分野での相関ルールの適用について学習します。
相関モデルは、その他の分野でも重要な用途に応用されています。たとえば、E-Commerceにおいて、Webページのパーソナライズに相関ルールを使用することがあります。相関モデルから、ページAとページBにアクセスするユーザーは70%の確率で同じセッション内でページCにアクセスすることがわかったとします。このルールに基づいて、ページCに関心を持ちそうなユーザー向けに動的なリンクを作成することが可能です。この相関ルールは次のように表します。
A and B imply C with 70% confidence
関連項目
8.2 トランザクショナル・データ
マーケット・バスケット・データとも呼ばれるトランザクショナル・データについて学習します。
他のデータ・マイニング機能と異なり、相関はトランザクションに基づくマイニング機能です。トランザクション処理では、清算カウンタにおけるマーケット・バスケットの内容などの項目の集まりがケースに含まれます。トランザクションの項目の集まりが、そのトランザクションの1つの属性です。トランザクションに関連するタイムスタンプやユーザーIDなどがその他の属性となります。
マーケット・バスケット・データとも呼ばれるトランザクショナル・データは、レコード(行)のセットでケースが構成されるため、複数レコード・ケースの形式であると言えます。たとえば、次の図で、ケース11は3つの行で構成され、ケース12および13はそれぞれ4つの行で構成されています。
トランザクショナル・データ以外のデータは、単一レコード(行)でケースが構成されるため、単一レコード・ケースの形式であると言えます。Oracle Data Mining for SQLでは、トランザクショナルまたはトランザクショナル以外のどちらか、または2次元データ形式を使用して相関モデルを作成できます。データがトランザクショナルではない場合、データ・マイニング・アクティビティを実行する前に、ネストした列に変換してトランザクショナルにできます。トランザクショナル形式は通常の形式ですが、相関ルール・モデルは2次元入力形式を受け入れます。トランザクショナル以外の入力形式の場合、ケースID列以外のすべての列のコンテンツのそれぞれ異なる組合せが一意の項目として扱われます。