MDLメトリック

属性評価では、2つの部分で構成されるコードをメトリックとして使用し、各データ単位を送信します。前半部分(プリアンブル)ではモデルを送信します。モデルのパラメータは、予測の各値に関連するターゲットの確率です。

ターゲットの値がj個、予測子の値がk個、各値に対してni (i= 1、...、k)個の行がある場合、Ci個(ni-1個からj-1個を一度に選び出す組合せの数)の条件付き確率が考えられます。プリアンブルのビット・サイズは、Sum(log2(Ci))と示すことができ、ここで、Sumはkに対する合計です。こうして計算した値が、それぞれの単一予測モデルに関連付けられるペナルティを表します。コードの後半部分では、モデルを使用してターゲット値を送信します。

シーケンスの最もコンパクトな符号化とは、記号(ターゲット・クラス値)の確率に最も適合する符号化であることがよく知られています。したがって、シーケンスに最も高い確率を割り当てるモデルには、最小のターゲット・クラス値の送信コストが含まれます。これは、ビットではSum(log2(pi))となり、ここで、piは、モデルに関連する行iの予測確率です。

予測子のランクは、関連付けられた記述長のリストにおける位置で表されます(最短が先頭)。