4.5.9 ボックス・プロットでのデータのビジュアル化

ボックス・プロットは、数値データのデータ分布の概要を示します。データセットの対称性、歪度、差異および外れ値に関する一般的な情報を提供します。ボックス・プロットでは、ボックスと線を使用してデータ分布を表します。

ボックス・プロットには次のコンポーネントがあります:
  • 中央ボックス - 四分位範囲および四分位数:
    • Q1 (第1四分位数) - データの25%がこの値を下回っています。これは、下から25%の低い値と上から75%の高い値の境界を表します。
    • Q3 (第3四分位数) - データの75%がこの値を下回っています。下から75%の低い値と上から25%の高い値の境界を表します。
    • 四分位範囲(IQR) - IQRは、中央の50%の値が該当する範囲です。IQR = Q3 - Q1
  • ひげ - ボックス・プロットのひげは、中央ボックスから外れ値とみなされない最小および最大のデータ値まで伸びています。データ分布の大多数がグラフィカルに表示されます。
  • 外れ値 - 外れ値は、通常、データのばらつきやエラーのために、他のデータ・ポイントから大幅に逸脱したデータ・ポイントです。外れ値は、ボックス・プロットのひげの端を超えるドットとしてプロットされます。
  • 中央値 - 中央値は、データセットを2等分する値で、値の50%がその値を下回り、50%が上回ります。ボックス・プロットでは、中央フレーム内の線またはマークが中央値を表します。
このチャートを使用する場面: 数値データの分布(特に複数のグループ間で比較する場合)を表示するには、このチャートを使用します。
データセット: IRISデータセット。IRISデータセットには、3つのクラス(Setosa、VersicolorおよびVirginicaの3つの異なるIris種)と、それぞれ50個のサンプル、およびこれらのクラスに関する4つの数値プロパティ(Sepal Length、Sepal Width、Petal LengthおよびPetal Width)が含まれています。
ボックス・プロットでデータをビジュアル化するには:
  1. 「円グラフでのデータのビジュアル化」のトピックで、IRISデータセットをすでに作成しました。同じ表IRIS_Rを使用して、ボックス・プロットでデータをビジュアル化します。ノートブックを開き、IRIS_R表が移入されているパラグラフに移動します。

    図4-39 表内のIrisデータセット


    ボックス・プロット・アイコンが強調表示された表のIrisデータセット

  2. ボックス・プロット・アイコンをクリックします。データセットがボックス・プロットに表示されるようになります。

    図4-40 ボックス・プロット1 - 3つの種(クラス)(Setosa、VersicolorおよびVirginca)によるデータのグループ化


    ボックス・プロット1 - 3つの種(クラス)(Setosa、VersicolorおよびVirginca)によるデータのグループ化

    ご覧のとおり、デフォルトでは、データはX軸に沿ってSetosa、VersicolorおよびVirgincaの3つの種(クラス)でグループ化され、Y軸に沿ってsepal lengthが表示されます。各ボックス・プロットにカーソルを合せると、件数が表示されます。
  3. 「設定」をクリックして、データのプロット方法を表示します。「設定」で、「表示する系列」に移動し、クリックして他の3つの数値プロパティ(Sepal Width、Petal LengthおよびPetal Width )を追加します

    図4-41 ボックス・プロット2 - 3つの種(クラス)のSepal Width、Sepal Length、Petal WidthおよびPetal Lengthプロパティのデータ


    ボックス・プロット2 - 3つの種(クラス)のSepal Width、Sepal Length、Petal WidthおよびPetal Lengthプロパティのデータ

  4. 「設定」で、「カスタマイズ」をクリックし、次の設定を編集します:
    • ビジュアライゼーション: 「外れ値の表示」をクリックします。
    • 「テキスト」フィールドに、「Iris Species」と入力します。色:rgb(7, 17, 215, 0.88)」と入力します
    • Y軸: 「テキスト」フィールドに、「Petal & Sepal Properties」と入力します。色:rgb(7, 17, 215, 0.88)」と入力します
    • 説明: Box Plot of the Iris flower dimension」と入力します。
    • 色:rgb(241, 8, 24)」と入力します
    • 完了したら、ダイアログを閉じます。

    図4-42 ボックス・プロット3 - 外れ値、ボックス・プロットの説明、およびX軸とY軸の説明の表示


    ボックス・プロット3 - 外れ値、ボックス・プロットの説明、およびX軸とY軸の説明の表示

  5. ボックス・プロットに、データセットが次のように表示されるようになりました:
    • 各ボックス・プロットにカーソルを合せると、値が表示されます。このスクリーンショットでは、カーソルはVirginica種のSepal Lengthの系列の上にあります。長さは5.6から7.9の範囲です。これには外れ値もあり、ボックス・プロットのひげの下にあるドットで示されます。

      図4-43 ボックス・プロット4 - クラスVirginicaおよびプロパティSepal Lengthの値の表示


      ボックス・プロット4 - クラスVirginicaおよびプロパティSepal Lengthの値の表示

    • グループVirginicaの外れ値を示すドットにカーソルを合わせます。Virginica sepalの長さの外れ値が4.9であることを示しています。これは、Virginica種には、短い長さ(5.6)を著しく下回る萼片があることを意味します。

      図4-44 ボックス・プロット5 - Virginica (クラス)のSepal Length (プロパティ)の外れ値の表示


      ボックス・プロット5

これで、データをボックス・プロットでビジュアル化するタスクは完了です。