圧縮とエントロピ

データ圧縮は、元の表現より少ないビット数を使用して情報をエンコードするプロセスです。MDL原理は、データの最も短い説明が最も可能性が高いという考えに基づきます。この原理の典型的な事例では、モデルは、次に示すとおり不確実性(エントロピ)を低減してデータを圧縮するために使用されます。データの説明には、モデルの説明と、モデルの説明に従ったデータが含まれます。

エントロピは、不確実性の測度です。それは、値を指定するために必要な情報として、不確実性を確率変数に定量化します。ここでは情報は、完全な仕様で答える必要のあるビット(0または1としてエンコード)と呼ばれるyes/no質問の数として定義されます。このため、情報は、変数が想定できる値の数に依存します。

たとえば、変数が個人の性別を表す場合、指定可能な値の数は2つ(女性と男性)です。変数が全額ドルで示される個人の給与を表す場合、その値の範囲は$0から$10B (数十億の一意の値)になる可能性があります。明らかに、個人の性別を指定するより正確な給与を指定する方が多くの情報を必要とします。