データの分割
予測モデルの作成(トレーニング)とテストには、別々のデータセットが必要です。通常は、1つの大規模な表またはビューを2つのデータセットに分割し、1つをモデルの作成用、もう1つをモデルのテスト用とします。
作成データ(トレーニング・データ)とテスト・データは同じ列構造である必要があります。テスト・データにモデルを適用するプロセスは、選択した1つのサンプルを基に作成されたモデルを他のデータに一般化できるかどうかの判断に役立ちます。
教師ありモデル(分類モデルと回帰モデルなど)を作成して検証するには、ケース表が2つ必要です。1つの行セットはモデルのトレーニング用、もう1つの行セットはモデルのテスト用に使用されます。作成データおよびテスト・データは多くの場合、同じデータ・セットから導出すると便利です。たとえば、モデルのトレーニング用に行の60%をランダムに選択し、残りの40%をモデルのテストに使用できます。教師なし機械学習手法を実装するモデル(属性評価、クラスタリング、相関または特徴抽出など)では、個別のテスト・データは使用しません。
親トピック: 教師あり学習