4.5.9 ボックス・プロットでのデータのビジュアル化
ボックス・プロットは、数値データのデータ分布の概要を示します。データセットの対称性、歪度、差異および外れ値に関する一般的な情報を提供します。ボックス・プロットでは、ボックスと線を使用してデータ分布を表します。
ボックス・プロットには次のコンポーネントがあります:
- 中央ボックス - 四分位範囲および四分位数:
- Q1 (第1四分位数) - データの25%がこの値を下回っています。これは、下から25%の低い値と上から75%の高い値の境界を表します。
- Q3 (第3四分位数) - データの75%がこの値を下回っています。下から75%の低い値と上から25%の高い値の境界を表します。
- 四分位範囲(IQR) - IQRは、中央の50%の値が該当する範囲です。IQR = Q3 - Q1
- ひげ - ボックス・プロットのひげは、中央ボックスから外れ値とみなされない最小および最大のデータ値まで伸びています。データ分布の大多数がグラフィカルに表示されます。
- 外れ値 - 外れ値は、通常、データのばらつきやエラーのために、他のデータ・ポイントから大幅に逸脱したデータ・ポイントです。外れ値は、ボックス・プロットのひげの端を超えるドットとしてプロットされます。
- 中央値 - 中央値は、データセットを2等分する値で、値の50%がその値を下回り、50%が上回ります。ボックス・プロットでは、中央フレーム内の線またはマークが中央値を表します。
このチャートを使用する場面: 数値データの分布(特に複数のグループ間で比較する場合)を表示するには、このチャートを使用します。
データセット:
IRIS
データセット。IRIS
データセットには、3つのクラス(Setosa、VersicolorおよびVirginicaの3つの異なるIris種)と、それぞれ50個のサンプル、およびこれらのクラスに関する4つの数値プロパティ(Sepal Length、Sepal Width、Petal LengthおよびPetal Width)が含まれています。
ボックス・プロットでデータをビジュアル化するには:
これで、データをボックス・プロットでビジュアル化するタスクは完了です。