この章では、Oracle Communications Data Modelで提供されるデータ・マイニング・モデルの参照情報を提供します。
この章の内容は次のとおりです。
Oracle Communications Data Modelのマイニング・モデルには、データ・マイニング・パッケージ、ソース表(MV)およびターゲット表が含まれます。ソース表は、Oracle Communications Data Modelメイン・スキーマから抽出され、モデルのトレーニングに使用されます。ターゲット表には、たとえばマイニング・ルールなど、マイニングの結果データが含まれます。データ・マイニング・パッケージは、ソース・データを取り込んでデータ・マイニング・パッケージに送り、ターゲット表に結果を移入します。ターゲット表のデータは、レポートに表示できます。
注意: 変更されたマイニング・モデルまたは新しいマイニング・モデルは、標準のOracle Communications Data Modelサポートの一部としてOracleによってサポートされません。ただし、付属のマイニング・モデルを要件に適合させるか、必要に応じて新しいマイニング・モデルを作成することをお薦めします。 |
表10-1に示すように、Oracle Communications Data Modelマイニング・モデルでは、特定の問題に対して指定されたアルゴリズムが使用されます。
表10-1 Oracle Communications Data Modelのモデルが使用するアルゴリズムのタイプ
モデル | データ・マイニング・モデルで使用されるアルゴリズム |
---|---|
|
Decision Tree (DT)、Support Vector Machine (SVM) |
|
k-Means (KM) |
|
Support Vector Machine (SVM) |
|
Support Vector Machine (SVM) |
|
Support Vector Machine (SVM) |
|
Generalized Linear Models (GLM) |
Oracle Communications Data Modelマイニングは、ocdm_mining
およびocdm_sys
の2つのスキーマで構成されています。図10-1に、Oracle Communications Data Modelマイニングでのこれらのスキーマの機能を示します。
ocdm_mining
スキーマの構成は次のとおりです。
マイニング・モデル・パッケージ(pkg_ocdm_mining
): マイニング・パッケージは、ビューのソース・データから、マイニング・ルール、予測結果およびその他の情報を生成します。
マイニング・モデルのソース・ビュー: マテリアライズド・ビューは、ocdm_sys
スキーマのデータを変換し、複数のマテリアライズド・ビューとしてOracle Miningアルゴリズムに提示します。すべての表は、物理表ではなく、MVとして実装されます。
マイニング・モデル・サポート表: マイニング・モデル・サポート表は、主に、マイニング・モデルの作成またはテスト・プロセスで使用される中間表です。ほとんどのマイニング・モデル・サポート表は、名前がDM$
で始まります。
注意: マイニング・モデル・サポート表を削除しないでください。削除した場合、DM$ 表を再作成するのは非常に困難です。 |
ocdm_sys
スキーマの構成は次のとおりです。
OCDMメイン・モデル、つまり、すべての実表、参照表、導出表および集計表です。
マイニング結果表: マイニング結果表には、マイニング・モデルからの出力が保存されます。通常、この出力は、マイニングの適用プロセスで生成されます。表は、ocdm_sysスキーマに作成されます。
図10-1 Oracle Communications Data Modelマイニング・スキーマ
顧客情報および顧客動作は、時間の経過とともに変化します。このため、トレーニングされたマイニング・モデルは、最新の顧客データおよび使用状況データに基づいてリフレッシュできます。通常、マイニング・モデルのリフレッシュ・プロセスは、次の3つのタスクに分類されます。
データの準備: データをロードし、マイニング・アルゴリズムが認識できる形式に変換します。また、顧客は、次の2つのタスクに対応する2セットのデータを準備する必要があります。
トレーニング・データ
スコアリング・データ
トレーニング: 顧客データの一部に基づいて、特定のアルゴリズムを実行し、マイニング・モデルを生成できます。
スコアリング(適用): トレーニングされたモデルを他の顧客データに適用します。これにより、予測またはモデルで意図されているその他のミッションを実行できます。
Oracle Miningのトレーニングおよびスコアリング(適用)プロセスの詳細は、『Oracle Data Mining概要』を参照してください。
最新の顧客データに基づいて全6個のマイニング・モデルをリフレッシュするには、pkg_ocdm_mining.refresh_modelというプロシージャをコールします。このプロシージャは、各モデルで次のタスクを実行します。
OCDM_SYSの最新データに基づいてマイニング・ソース・マテリアライズド・ビューをリフレッシュします。
新しいトレーニング・データを使用して各モデルを再度トレーニングします。
各モデルを新しい適用対象データ・セットに適用します。
このプロシージャは、Oracle Communications Data Model Intra-ETLワークフローに統合されています。
マイニング・モデルのリフレッシュの際に発生したエラーは、他の標準のOracle Communications Data Model Intra-ETLパッケージのエラーおよび情報と同様に、DWC_INTRA_ETL_ACTIVITY
という表に保存されます。
表10-2に、dwd_cust_mnng
結果表を示します。
表10-2 dwd_cust_mnngデータ・マイニング結果表
名前 | タイプ | 説明 |
---|---|---|
|
|
月がトレーニングおよび適用されたときの月コード。現在のバージョンではNULLに設定されていました。 |
|
|
顧客を一意に識別する顧客キー。 |
|
|
SVMモデルにより、今後3か月間で顧客がチャーンするかどうかのブール値。 |
|
|
今後3か月で顧客がチャーンする可能性を示す確率値。 これはSVM予測が正しい確立です。 |
|
|
DTモデルにより、今後3か月間で顧客がチャーンするかどうかのブール値。 |
|
|
顧客が割り当てられているディシジョン・ツリー内のノードのID。 |
|
|
k-Meansアルゴリズムは、すべての顧客セットをセグメントに分割します。この値は、顧客が所属するセグメントを識別します。 |
|
|
LTVの一般化線形モデル回帰により予測される、顧客生涯価値のバンド・コード。詳細は、『Oracle Data Mining概要』を参照してください。 |
|
|
LTV (GLMR)モードにより予測される、顧客生涯価値の実価。 |
|
|
Life_Exp (GLMR)モデルにより予測される、顧客存続期間(平均存続期間)のバンド・コード。 |
|
|
Life_Exp (GLMR)モデルにより予測される、顧客存続期間(平均存続期間)の値。 |
|
|
顧客感情モデル(SVM + テキスト)により検出される顧客感情カテゴリ。これは変換されたTEXT (ワード・マトリクスに変換)でのSVMモデルです。 |
|
|
エンド・ユーザーにより適用される手動のスコア。このモデルはエンド・ユーザーにより生成されます。たとえば、事業者の従業員がこのモデルを生成する場合があります。通常、これはコール・センター・エージェントです。たとえば、メッセージを記録する場合、顧客が満足か不満かを示すメッセージに関連付けられたマニュアル・タグを設定することができます。 |
|
|
顧客が予定されたモデル(満足)に該当する確率。これは顧客がサービスに満足する確率を表します。たとえば、値が60%の場合、顧客がサービスに満足する可能性が60%および不満である可能性が40%であることを意味します。 |
表10-3に、dwd_cust_prod_affltn
結果表を示します。
表10-3 dwd_cust_prod_affltnデータ・マイニング結果表
名前 | タイプ | 説明 |
---|---|---|
|
|
月がトレーニングおよび適用されたときの月コード。現在のバージョンではNULLに設定されていました。 |
|
|
顧客を一意に識別する顧客キー。 |
|
|
予測が行われた製品コード。これはプロモーションの対象製品です。 |
|
|
顧客が製品を購入する可能性のSVMモデルによる予測。 |
|
|
顧客が製品を購入するかどうかを示すブール値。値が1の場合は購入、0の場合は購入しないことを示します。 |
表10-4に、dwd_chrn_svm_factor
結果表を示します。
表10-4 dwd_chrn_svm_factorデータ・マイニング結果表
名前 | タイプ | 説明 |
---|---|---|
|
|
要素の名前。 |
|
|
要素のサブネーム(存在する場合)。たとえば、ATTRIBUTE_NAMEの値がPayment_Methodの場合、ATTRIBUTE_SUBNAMEは次のいずれかが可能です。
各ATTRIBUTE_SUBNAMEは、モデルでの重みおよび係数が異なります。 |
|
|
要素の値(存在する場合)。 たとえば、支払い方法の場合、現金と口座引落しでは、影響およびランク付けの値が異なります。 |
|
|
要素の重要性。要素は、この値によりランク付けされます。 |
チャーン予測モデルは、チャーンの可能性が高い顧客特性を識別します。モデルを適用すると、特定の顧客についてチャーンの可能性を予測します。これは顧客の人口統計情報、サービス品質、最新の料金プラン、通話使用状況などの顧客情報およびその他の要素に基づきます。また、学習したパターンを使用して、現在の顧客ベースに対して計算を実行して(Applyと呼ばれる)、今後数か月で最も可能性の高いチャーン顧客を予測することもできます。この知識により、事業者は顧客チャーン率を減らすためのリテンション・プログラムを開始できます。ただし、チャーン予測で生成されるのはチャーンの確からしさの値です。チャーン顧客の維持が望ましいかどうかを判断するには、さらなる処理が必要です。たとえば、価値の高い顧客のみにリテンション・プログラムを開始することもできます。
顧客、アカウントおよびサブスクリプションなど、チャーンの定義には複数のレベルがあります。限られた営業品目のみを持つ事業者では、サブスクリプションのレベルが低く、顧客とアカウントのチャーンが同時に起こります。顧客は一部の製品の使用を停止(サブスクリプションを終了)しても、他の製品の使用を継続する場合があります。後者の場合、事業者は顧客を引き続き保持し、将来において別の製品のプロモーションが可能です。しかし、顧客が事業者の製品の使用を完全に中止した場合、顧客を呼び戻すのは非常に困難です。
Oracle Communications Data Modelでは、チャーンは顧客レベルで定義されており、顧客が事業者の製品を1つも使用しなくなった場合にのみチャーン顧客として認識されます。
特定の月にチャーンが発生した場合、実際にチャーンが起きてから3か月後に初めてデータを受け取る場合があります。したがって、時間ウィンドウの調整が必要です。
表10-5に、DTモデルの入力ソース変数としてデータ・ウェアハウス基盤で識別される属性を示します。
表10-5 DMV_CUST_CHRN_SRC_ALL
属性 | 説明 |
---|---|
|
顧客の主キー |
|
チャーン・モデルのターゲット列 |
|
過去3か月間の将来の契約数 |
|
過去3か月間のサブスクリプション数 |
|
過去3か月間の保留件数 |
|
過去3か月間の契約数 |
|
過去3か月間の苦情数 |
|
過去3か月間のコール・センターへの苦情電話の数 |
|
過去3か月間のライフタイムでのコール・センターへの苦情電話の数 |
|
過去3か月間の契約残り日数 |
|
過去3か月間のアカウント残価 |
|
過去3か月間の残りの契約合計 |
|
過去3か月間の負債総額 |
|
過去3か月間のロイヤルティ・プログラム・バランス |
|
過去3か月間の支払い収益合計 |
|
過去3か月間の月次収益(arpu) |
|
過去3か月間の契約ARPU額 |
|
過去3か月間のパーティ・タイプ・コード(個人または組織) |
|
事業の法的地位 |
|
個人ユーザーの未婚/既婚 |
|
世帯規模 |
|
ジョブ・コード |
|
国籍コード |
|
教育レベル |
|
性別 |
|
運転免許インジケータ |
|
雇用契約タイプ、正社員または契約。 |
|
禁止状態の場合は禁止理由コード |
|
郵便番号 |
|
市区町村 |
|
州 |
|
国 |
|
Dr、Msなどの敬称。 |
|
職場の名前 |
|
出生地 |
|
職務 |
|
顧客の自宅の法的所有権(賃貸、持家など) |
|
民族的背景 |
|
前の雇用者の納税番号 |
|
子の数 |
|
扶養家族の数 |
|
住居の保有(月) |
|
住居規模 |
ETHNCTY |
民族性 |
|
マイノリティ・レポートのための個人の分類。 |
|
住居タイプ |
|
住居ステータス |
|
収入源 |
|
顧客タイプ・コード |
|
顧客セグメント・キー |
|
住所キー |
|
顧客スコア・キー |
|
プライマリ・ステータス・コード |
|
プライマリ・ステータス理由コード |
|
SOC分類のジョブ・コード |
|
組織タイプ |
|
言語コード |
|
連絡先住所の有効期間(日単位) |
|
倒産ステータスの開始日(日単位) |
|
倒産ステータス |
|
請求書送付先の有効期間(日単位) |
|
支払い勘定の有効期間(日単位) |
|
メール許可インジケータ |
|
支払いに対する顧客の責任の有無 |
|
現在の場所に顧客が居住する期間(日単位) |
|
雇用契約の終了日 |
|
雇用開始日 |
|
経済活動インジケータ |
|
ネットのエイジ・バンド・コード |
|
ネットのエイジ番号 |
|
信用カテゴリ |
|
エイジ・バンド |
|
債務エイジング・バンド |
|
支払い方法タイプ |
|
ARPUバンド・コード |
|
販売チャネル・キー |
|
販売チャネル担当者キー |
|
組織事業単位キー |
|
顧客収益バンド・コード |
|
過去3か月間の将来の契約数 |
|
過去3か月間のサブスクリプション数 |
|
保留数 |
|
契約数 |
|
ライフタイムの苦情数 |
|
苦情数 |
|
コール・センターへの苦情電話の数 |
|
ライフタイムでのコール・センターへの苦情電話の数 |
|
存続期間(日単位) |
|
契約残り日数 |
|
アカウント・レフト・バリュー |
|
残り契約合計 |
|
負債総額 |
|
ロイヤルティ・プログラム残高 |
|
料金収入の合計 |
|
今月の時点での総収益 |
|
月次収益(ARPU) |
|
ライフタイム収益 |
|
契約ARPU額 |
|
推定獲得費(オプションの属性) |
|
顧客がブロードバンド製品を使用するかどうか |
|
顧客が有料テレビ製品を使用するかどうか |
|
顧客がIDD製品を使用するかどうか |
|
顧客が固定回線電話製品を使用するかどうか |
|
顧客が無線電話製品を使用するかどうか |
|
顧客が新規顧客かどうか |
|
顧客電話番号の数字4の数 |
|
顧客電話番号の数字13の数 |
|
顧客電話番号の数字6の数 |
|
顧客電話番号の数字9の数 |
|
顧客特有の評価プログラムでの顧客番号のスコア |
|
ポーティング・インした顧客の元の事業者 |
|
顧客のポーティング・インの回数 |
|
顧客のポーティング・アウトの回数 |
dmv_cust_chrn_src_all
からのすべてのデータは、CHRN_IND
列にNULL以外の値が含まれます。この表は、dmv_cust_chrn_src_prd
およびdmv_cust_chrn_src_tstの2つの表に分割されます。dmv_cust_chrn_src_prd
表に顧客の約60%、およびdmv_cust_chrn_src_tstに残りの顧客が含まれます。チャーン予測モデルは、dmv_cust_chrn_src_prd表でトレーニングされた後、dmv_cust_chrn_src_tstでその正確さがテストされました。
トレーニングの際に一時予測モデルOCDM_CHURN_DT_NEW
が作成され、既存の予測モデルOCDM_CHURN_DT
と比較されます。既存モデルと比較して、新規の一時モデルOCDM_CHURN_DT_NEW
の正確さが勝っている場合、既存モデルは置換されます。そうでない場合、新規モデルは削除されます。
dmv_cuts_chrn_src_all
表は、次の表から導出されます。
ocdm_sys.DWR_CUST
ocdm_sys.DWD_ACCT_STTSTC
ocdm_sys.DWR_BSNS_MO
ocdm_sys.DWR_HH
ocdm_sys.DWR_JB
マイニング結果は、次の列を使用してターゲット表に保存されます。
dwd_cust_mnng.PRDCT_CHURN_SVM_IND
dwd_cust_mnng.PRDCT_CHURN_SVM_PROB
dwd_cust_mnng.PRDCT_CHURN_DT_IND
dwd_cust_mnng.PRDCT_CHURN_DT_ND_NBR
これらの4列に関する詳細は、マイニング・ターゲットのデータ・ディクショナリを参照してください。
ビジネスの問題は、顧客の人口統計値、使用パターンおよびサブスクライブする通信商品のリスト(顧客サブスクライバ履歴)に基づいて顧客を同質的なグループに分類することです。ビジネス・アナリストは、モデルによって検出された顧客グループをさらに深く理解するために各セグメントを調査し、各セグメントに名前を付けます。
検出されたクラスタリング・ルールは、製品サブスクリプションとともに顧客のプロファイルを描写します。したがって、プロファイル・グループごとに生成されるクラスタリング・ルールは、各グループの最も重要な類似特製を示します。たとえば、事業者の他のグループと比較して、ショート・メッセージ(SMS)の使用が非常に多いグループが存在する場合があります。または、他のグループよりも非常に高い利益を持つ(ハイ・エンド顧客)グループが存在する場合もあります。
顧客プロファイリング・モデルでは、dmv_cust_chrn_apply_all表のサブセットであるDMV_CUST_PROFILE_SRC
ソース・ビューを使用します。次のような情報が含まれます。
ビジネスの問題は、顧客チャーン問題または顧客収益に最大の影響をもたらす要素を特定することです。マーケティング部門では、これらの情報を利用して顧客行動についての理解を深める必要があります。主要な要素、具体的には、地理人口統計、顧客セグメント/グループ、VAS使用状況を含める必要があります。ほとんどの属性は、ビジネス・ユーザーが顧客プロファイルを理解するためのカテゴリーです。
このモデルは、SVMアルゴリズムによりチャーン予測モデルから導出されますが、有用であるため、別々のモデルとして提示されています。
表10-6に、顧客のチャーン要因モデルの結果が保存されるdwd_chrn_svm_factor表の列を示します。
表10-6 dwd_chrn_svm_factor表の顧客チャーン要因の出力列
属性 | データ型 | 説明 |
---|---|---|
|
|
要素の名前。 |
|
|
要素のサブネーム(存在する場合)。各ATTRIBUTE_SUBNAMEは、モデルでの重みおよび係数が異なります。 |
|
|
要素の値(存在する場合)。たとえば、支払い方法の場合、現金と口座引落しでは、影響およびランク付けの値が異なります。 |
|
|
要素の重要性。要素は、この値によりランク付けされます。 |
ビジネスの問題は、同時または次々に購入される商品など、顧客の存続期間における一般的な商品の購入パターンを特定することです。これにより、顧客の潜在的な容認スコアに基づいて、必要な商品を顧客に推奨できます。コール・センターでの一般的なシナリオとして、特定の目的を持つ顧客に電話をして商品のクロスセルを行うことができます。事業者がプロモーション・コストを削減し、効率を向上するには、顧客のリストが必要です。
トレーニングされたモデルにより、プロモーションの対象商品に関する推奨が生成されます。これは、顧客の信用履歴や顧客への特定商品の提供に関連するリスクなどの他の要素も考慮に入れて、顧客がサブスクライブしている商品に基づいて実行されます。
dmv_prod_mix_src
表をマイニング・アルゴリズムへの入力としてモデルをトレーニングします。この表は、次の表から導出されます。
ocdm_mining.
dmv_cust_chrn_src_all
ocdm_sys.dwd_vas_sbrp_qck_summ
特定商品のプロモーションのため、購入する可能性が最も高い顧客のリストがモデルにより生成されます。この予測は、SVMアルゴリズムにより実行されます。結果は、dwd_cust_prod_affltn
表の次の列に保存されます。
表10-7 dwd_cust_prod_affltn表でのクロスセル機会の出力列
属性 | データ型 | 説明 |
---|---|---|
|
|
月がトレーニングおよび適用されたときの月コード。現在のバージョンではNULLに設定されていました。 |
|
|
顧客を一意に識別する顧客キー。 |
|
|
予測が行われた製品コード。これはプロモーションの対象製品です。 |
|
|
SVMアルゴリズムによる可能性に関する出力で、顧客が製品を購入する可能性を示します。 |
|
|
顧客が製品を購入するかどうかを示すブール値。値が1の場合は購入、0の場合は購入しないことを示します。 |
ビジネスの問題は、顧客から受け取ったテキスト・メッセージに基づいて、サービス品質についての顧客感情を測定することです。これらのテキスト・メッセージには、顧客からの電子メール、コール・センターの通話の際のメモなどがあります。
このモデルでは、Oracleデータベースが提供するテキスト・マイニング機能を活用します。詳細は、『Oracle Data Mining概要』を参照してください。
マイニング・アルゴリズムへのソース表はdm_cust_cmmnt
で、次の列があります。
表10-8 dm_cust_cmmnt表のデータ・マイニング・ソース列
属性 | データ型 | 説明 |
---|---|---|
|
|
顧客キー |
|
|
手動スコアまたは読取り後に手動で調整 |
|
|
マイニング・モデルによる感情のスコア |
|
|
顧客が満足グループに属する可能性 |
|
|
顧客が不満グループに属する可能性 |
|
|
顧客からのすべてのテキスト・メッセージ。 |
テキスト・マイニングの感情分析は、ディクショナリ表のDWD_CUST_SNTMNT_MANUAL_SCORE
を拡張してモデルのパフォーマンスを向上することで、精度を上げることができます。
pkg_ocdm_mining.create_sentiment_svm_model(month_code)プロシージャは、dm_cust_cmmnt表のデータをリフレッシュした後、感情マイニング・モデルをリフレッシュします。このプロシージャは、感情マイニングの結果表DWD_CUST_MNNGへの移入も行います。
詳細は、「Oracle Communications Data Modelマイニング結果表」を参照してください。
マイニング結果は、次の列を使用してターゲット表に保存されます。
dwd_cust_mnng.SNTMNT_CTGRY_CD
dwd_cust_mnng.MANUAL_SNTMNT_CTGRY
dwd_cust_mnng.SNTMNT_PROB
顧客の離脱ではなく、顧客がサービスの使用を継続(生存)する期間を把握します。また、顧客が生涯を通じて、どの程度の価値を事業者にもたらす可能性があるかを認識できます。これは回帰モデルです。ソース・データは、少なくとも5年前からのネット上の顧客であり、モデルのターゲットは、顧客のエイジ(期間)です。5年未満でのチャーン顧客については正確な期間がわかりますが、現在も引続きネットを利用している顧客については全ライフタイムが期間となります。
モデル1(チャーン予測)との相違点は、このモデルは分類ではなく、回帰モデルである点です。ターゲットのライフタイムは、実際の継続値です。
dmv_cust_ltv_prdct_srcは、LTV予測モデルのソース表です。この表は、チャーン・モデルのソース表dmv_cust_chrm_src_allのサブセットです。有効な入力をモデルに提供するため、加入期間が3年未満の顧客はトレーニング・データセットから除外されます。
生存期間(Life Time Span)および生涯価値(LTV)の2つのターゲット・メジャーを予測します。結果は、dwd_cust_mining
表に保存されます。
dwd_cust_mnng.LTV_BAND_CD
dwd_cust_mnng.LTV_VALUE
dwd_cust_mnng.LT_SRVVL_CD
dwd_cust_mnng.LT_SRVVL_VAL
LTV_valueおよびLT_SRVVL_VALは、モデルで予測される実際の値で、10カテゴリにビニングされ、他の2つの列LTV_BAND_CDおよびLT_SRVVL_CDを形成します。