5 相関
- 相関とは
相関を使用して、集合内の項目同時発生の確率を特定します。 - トランザクショナル・データ
ケースに項目の集合(精算時のマーケット・バスケットなど)が含まれている、トランザクショナル・データについて説明します。 - 相関のアルゴリズム
Aprioriアルゴリズムを使用して高頻度項目セットの相関ルールを計算します。
関連項目
親トピック: 機械学習手法
5.1 相関とは
相関を使用して、集合内の項目同時発生の確率を特定します。
同時発生する項目間の関係は、相関ルールで表されます。
- 相関ルール
データ内の集合での項目同時発生の確率を特定します。 - マーケットバスケット分析
相関ルールを使用して販売トランザクションを分析します(シリアルとミルクを頻繁に同時購入する顧客など)。 - 相関ルールとE-Commerce
E-Commerceで相関ルールを適用して、ページ訪問に基づいてユーザーの行動を予測することでWebページをパーソナライズします。
親トピック: 相関
5.1.1 相関ルール
データ内の集合での項目同時発生の確率を特定します。
相関モデルの結果は、データ内の相関のパターンを識別するルールです。Oracle Machine Learning for SQLでは、相関モデルのスコアリング操作はサポートされていません。
相関ルールは次のように適用できます。
- 支持度: 各項目がデータで同時に発生する頻度。
- 信頼度: 前件を含むトランザクション内で後件が発生する頻度。
- 値: 項目相関に結び付けられるビジネス価値の大きさ
親トピック: 相関とは
5.1.2 マーケットバスケット分析
相関ルールを使用して販売トランザクションを分析します(シリアルとミルクを頻繁に同時購入する顧客など)。
相関ルールは、よく販売トランザクションの分析に使用されます。たとえば、食料品店でシリアルを購入する顧客は同時に牛乳も購入することが多いことがわかっているとします。実際に相関分析を行うと、精算時にシリアルと牛乳の両方が含まれている確率は85%である、という結果が得られます。この関係は、次のルールで表すことができます。
Cereal implies milk with 85% confidence
相関モデルのこうした応用は、マーケット・バスケット分析と呼ばれています。マーケット・バスケット分析は、ダイレクト・マーケティングや販促活動、ビジネス上の傾向の把握などに役立ちます。また、店舗レイアウト、カタログのデザイン、抱合せ販売などにも活用できます。
親トピック: 相関とは
5.1.3 相関ルールとE-Commerce
E-Commerceで相関ルールを適用して、ページ訪問に基づいてユーザーの行動を予測することでWebページをパーソナライズします。
相関モデルは、その他の分野でも重要な用途に応用されています。たとえば、E-Commerceにおいて、Webページのパーソナライズに相関ルールを使用することがあります。相関モデルから、ページAとページBにアクセスするユーザーは70%の確率で同じセッション内でページCにアクセスすることがわかったとします。このルールに基づいて、ページCに関心を持ちそうなユーザー向けに動的なリンクを作成することが可能です。この相関ルールは次のように表します。
A and B imply C with 70% confidence
5.2 トランザクショナル・データ
ケースに項目の集合(精算時のマーケット・バスケットなど)が含まれている、トランザクショナル・データについて説明します。
他の機械学習機能と異なり、相関はトランザクションに基づきます。トランザクション処理では、清算カウンタにおけるマーケット・バスケットの内容などの項目の集まりがケースに含まれます。トランザクションの項目の集まりが、そのトランザクションの1つの属性です。トランザクションに関連するタイムスタンプやユーザーIDなどがその他の属性となります。
トランザクショナル・データは、マーケットバスケット・データとも呼ばれており、レコード(行)のセットでケースが構成されているため複数レコード・ケースの形式であると言えます。たとえば、次の図で、ケース11は3つの行で構成され、ケース12および13はそれぞれ4つの行で構成されています。
トランザクショナル・データ以外のデータは、単一レコード(行)でケースが構成されているため、単一レコード・ケースの形式であると言えます。Oracle Machine Learningでは、トランザクショナル、トランザクショナル以外または二次元のデータ形式を使用して相関モデルを作成できます。データは、トランザクショナルでない場合は、相関機械学習アクティビティを実行する前に、ネストした列に変換してトランザクショナルにすることができます。トランザクショナル形式は通常の形式ですが、相関ルール・モデルは2次元入力形式を受け入れます。トランザクショナル以外の入力形式の場合、ケースID列以外のすべての列のコンテンツのそれぞれ異なる組合せが一意の項目として扱われます。
親トピック: 相関