データの分割

予測モデルの作成(トレーニング)とテストには、別々のデータセットが必要です。通常は、1つの大規模な表またはビューを2つのデータセットに分割し、1つをモデルの作成用、もう1つをモデルのテスト用とします。

作成データ(トレーニング・データ)とテスト・データは同じ列構造である必要があります。テスト・データにモデルを適用するプロセスは、選択した1つのサンプルを基に作成されたモデルを他のデータに一般化できるかどうかの判断に役立ちます。