データのロード

データをロードするには、次のステップを実行します:

SpatialDataFrameのインスタンスを作成します。
国勢調査データセットは、データベースのla_block_groups表に格納されます。 Pythonにロードするには、DBSpatialDatasetを使用して、SpatialDataFrameのインスタンスを作成します。
```
import oml
from oraclesai import SpatialDataFrame, DBSpatialDataset
 
block_groups = SpatialDataFrame.create(DBSpatialDataset(table='la_block_groups',
     schema='oml_user'))
```
データセットにはロサンゼルス市内の様々なリージョンに関する情報が含まれ、median_incomeやhouse_valueなどの機能により、各リージョンの収入に関する情報が提供されます。その他の機能は、性別、人種、年齢に関する人口統計情報を提供します。

SpatialDataFrameインスタンスの変数(次の表を参照)を確認し、ターゲット変数、説明変数およびジオメトリを表す列を定義します。

変数	説明
`MEDIAN_INCOME`	収入中央値を表すターゲット変数。
`MEAN_AGE`	平均年齢。
`MEAN_EDUCATION_LEVEL`	「調査」表にリストされている様々な学歴に基づくスコア。
`HOUSE_VALUE`	リージョンの住宅の中央値。
`PER_WHITE`	リージョンの白人人口の割合。
`PER_BLACK`	リージョンの黒人人口の割合。

次のコードでは、SpatialDataFrameインスタンスから列のサブセットを選択します。

X = block_groups[['MEDIAN_INCOME', 
                  'MEAN_AGE', 
                  'MEAN_EDUCATION_LEVEL', 
                  'HOUSE_VALUE', 
                  'INTERNET', 
                  'geometry']]

トレーニングと検証、テスト・セットを定義します。
1. oreaclesai.preprocessingのspatial_train_test_split関数を使用して、データをトレーニング・セットおよびテスト・セットに分割します。データの20%をテスト用に割り当てます。
```
from oraclesai.preprocessing import spatial_train_test_split

X_train_valid, X_test, _, _, _, _ = spatial_train_test_split(X, y="MEDIAN_INCOME", 
    test_size=0.2, random_state=32)
```
2. データの残りの80%を再度分割して、検証に10%、残りの80%をトレーニングに使用して、トレーニングおよび検証セットを作成します。検証セットは、テスト・セットで使用する前にモデルのパフォーマンスを評価するのに役立ちます。
```
X_train, X_valid, _, _, _, _ = spatial_train_test_split(X_train_valid, y="MEDIAN_INCOME", 
    test_size=0.1, random_state=32)
```