O-Cluster用のユーザー定義のデータ準備
等幅ビニングを考慮し外れ値を管理することで、O-Cluster用にデータを準備できます。
O-Cluster用のデータをユーザー自身が準備する場合は、次の内容に留意してください。
- 
                     O-Clusterでは、モデルを作成する際、必ずしもすべての入力データを使用するわけではありません。データはバッチで読み込みます(デフォルトのバッチ・サイズは50,000)。統計テストに基づいて、見つかっていないクラスタが存在できると考えられる場合にのみ、別のバッチを読み込みます。 
- 
                     2項属性は、質的属性として宣言する必要があります。 
- 
                     自動等幅ビニングの使用をお薦めします。ビン識別子は、通常、1から始まる正の連続する整数にします。 
- 
                     外れ値が存在すると、クラスタリング・アルゴリズムに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。等幅ビニングで外れ値が存在すると、O-Clusterでクラスタを検出できなくなる場合があります。その結果、母集団全体が1つのクラスタ内に含まれているように見えます。