プロセス・フロー

高レベルで、O-Clusterアルゴリズムはデータを評価し、新しいパーティションに分割して、新しいパーティション内の切断面を検索します。

O-Clusterアルゴリズムでは、パーティションのすべての投影に対して適用可能な分割ポイントを評価し、最適なものを選択して、データを2つの新しいパーティションに分割します。アルゴリズムは、新しく作成されたパーティション内で適切な切断面の検索を続行します。つまり、O-Clusterは、入力空間を重複や間隙のない矩形領域に分割する2分木構造を作成します。

主な処理段階は次のとおりです。

  1. バッファをロードします。初期バッファから単一のアクティブ・ルート・パーティションにすべてのケースを割り当てます。

  2. アクティブ・パーティションごとに、直交する1次元の投影に従ってヒストグラムを計算します。

  3. アクティブ・パーティションの最適な分割ポイントを見つけます。

  4. 不明瞭パーティションと凍結パーティションをフラグ付けします。

  5. 有効なセパレータが存在する場合、アクティブ・パーティションを2つの新しいアクティブ・パーティションに分割してステップ2から再度開始します。

  6. 現在のバッファで再帰的パーティショニングがすべて完了した後に、バッファを再ロードします。バッファのロードは、バッファが再度一杯になるか、データセットの最後に到達するか、ケースの数がデータ・バッファのサイズに等しくなるまで継続されます。

    ノート:

    O-Clusterでは、データ全体に1つ以下のパスが必要です。