4.5.5 散布図でのデータのビジュアル化
散布図は、データ・セット内の2つの数値変数間の関係を表します。これは、2次元平面上のデータ・ポイントを表し、ある変数が別の変数によってどの程度影響を受けるかを示します。独立変数がX軸にプロットされ、従属変数がY軸にプロットされます。各グループが個別の色と形状を持つように、1つ以上のグループ化変数別に点を表示できます。
このチャートを使用する場面: ペアの数値データがあり、相関および傾向(線形および非線形の関係)の識別、外れ値の検出、データ分布の理解、データのグループ化またはクラスタの識別など、特定のシナリオで関連する変数間の関係を判別する場合は、散布図を使用します。散布図は、各データセットの値が異なるグループとして表される複数のデータセットを比較する場合にも役立ちます。散布図は、プロットによる回帰モデルの評価にも役立ちます(実際値と予測値など)。
データセット:
CUSTOMER_INSURANCE_LTV
。この例では、サンプル・テンプレート・ノートブックOML-Run-me-firstを使用します。
散布図でデータをビジュアル化するには:
これで、データを散布図でビジュアル化するタスクは完了です。この散布図は、所得範囲50kから80kで所得と住宅ローン金額に強い相関関係があることを示しています。