データのロード
データをロードするには、次のステップを実行します:
SpatialDataFrame
のインスタンスを作成します。国勢調査データセットは、データベースのla_block_groups
表に格納されます。 Pythonにロードするには、DBSpatialDataset
を使用して、SpatialDataFrame
のインスタンスを作成します。import oml from oraclesai import SpatialDataFrame, DBSpatialDataset block_groups = SpatialDataFrame.create(DBSpatialDataset(table='la_block_groups', schema='oml_user'))
データセットにはロサンゼルス市内の様々なリージョンに関する情報が含まれ、
median_income
やhouse_value
などの機能により、各リージョンの収入に関する情報が提供されます。 その他の機能は、性別、人種、年齢に関する人口統計情報を提供します。SpatialDataFrame
インスタンスの変数(次の表を参照)を確認し、ターゲット変数、説明変数およびジオメトリを表す列を定義します。変数 説明 MEDIAN_INCOME
収入中央値を表すターゲット変数。 MEAN_AGE
平均年齢。 MEAN_EDUCATION_LEVEL
「調査」表にリストされている様々な学歴に基づくスコア。 HOUSE_VALUE
リージョンの住宅の中央値。 PER_WHITE
リージョンの白人人口の割合。 PER_BLACK
リージョンの黒人人口の割合。 次のコードでは、
SpatialDataFrame
インスタンスから列のサブセットを選択します。X = block_groups[['MEDIAN_INCOME', 'MEAN_AGE', 'MEAN_EDUCATION_LEVEL', 'HOUSE_VALUE', 'INTERNET', 'geometry']]
- トレーニングと検証、テスト・セットを定義します。
oreaclesai.preprocessing
のspatial_train_test_split
関数を使用して、データをトレーニング・セットおよびテスト・セットに分割します。 データの20%をテスト用に割り当てます。from oraclesai.preprocessing import spatial_train_test_split X_train_valid, X_test, _, _, _, _ = spatial_train_test_split(X, y="MEDIAN_INCOME", test_size=0.2, random_state=32)
- データの残りの80%を再度分割して、検証に10%、残りの80%をトレーニングに使用して、トレーニングおよび検証セットを作成します。 検証セットは、テスト・セットで使用する前にモデルのパフォーマンスを評価するのに役立ちます。
X_train, X_valid, _, _, _, _ = spatial_train_test_split(X_train_valid, y="MEDIAN_INCOME", test_size=0.1, random_state=32)