4.5.5 散布図でのデータのビジュアル化

散布図は、データ・セット内の2つの数値変数間の関係を表します。これは、2次元平面上のデータ・ポイントを表し、ある変数が別の変数によってどの程度影響を受けるかを示します。独立変数がX軸にプロットされ、従属変数がY軸にプロットされます。各グループが個別の色と形状を持つように、1つ以上のグループ化変数別に点を表示できます。

このチャートを使用する場面: ペアの数値データがあり、相関および傾向(線形および非線形の関係)の識別、外れ値の検出、データ分布の理解、データのグループ化またはクラスタの識別など、特定のシナリオで関連する変数間の関係を判別する場合は、散布図を使用します。散布図は、各データセットの値が異なるグループとして表される複数のデータセットを比較する場合にも役立ちます。散布図は、プロットによる回帰モデルの評価にも役立ちます(実際値と予測値など)。
データセット: CUSTOMER_INSURANCE_LTV。この例では、サンプル・テンプレート・ノートブックOML-Run-me-firstを使用します。
散布図でデータをビジュアル化するには:
  1. OML-Run-Me-Firstノートブックで、CUSTOMER_INSURANCE_LTVを表示したパラグラフに移動します。散布図アイコンをクリックします。デフォルトの散布図が表示されます。これを次のステップでカスタマイズします。

    図4-27 散布図アイコンが強調表示されたツールバー


    散布図アイコンが強調表示されたツールバー

  2. 「設定」アイコンをクリックします。「設定」ダイアログの「設定」で、次の項目を設定します:
    • X軸に表示する系列: INCOMEをクリックして選択します。
    • Y軸に表示する系列: MORTGAGE_AMOUNTをクリックして選択します。
    • グループ化基準: MARITAL_STATUS.を選択します
  3. 「カスタマイズ」:をクリックします:
    • ビジュアライゼーション: デフォルト設定のままにします。
    • 説明: 「タイトル」に「Scatter plot to show the correlation between income and mortgage amount.」と入力します

    図4-28 散布図


    散布図

これで、データを散布図でビジュアル化するタスクは完了です。この散布図は、所得範囲50kから80kで所得と住宅ローン金額に強い相関関係があることを示しています。