O-Cluster用のユーザー定義のデータ準備

ここに示されている点を考慮することで、O-Clusterのデータを準備できます。

O-Cluster用のデータをユーザー自身が準備する場合は、次の内容に留意してください。

  • O-Clusterでは、モデルを作成する際、必ずしもすべての入力データを使用するわけではありません。データはバッチで読み込みます(デフォルトのバッチ・サイズは50,000)。統計テストに基づいて、見つかっていないクラスタが存在できると考えられる場合にのみ、別のバッチを読み込みます。

  • 2項属性は、質的属性として宣言する必要があります。

  • 自動等幅ビニングの使用をお薦めします。ビン識別子は、通常、1から始まる正の連続する整数にします。

  • 外れ値が存在すると、クラスタリング・アルゴリズムに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。等幅ビニングで外れ値が存在すると、O-Clusterでクラスタを検出できなくなる場合があります。その結果、母集団全体が1つのクラスタ内に含まれているように見えます。