機械翻訳について

データのロード

データをロードするには、次のステップを実行します:
  1. SpatialDataFrameのインスタンスを作成します。
    国勢調査データセットは、データベースのla_block_groups表に格納されます。 Pythonにロードするには、DBSpatialDatasetを使用して、SpatialDataFrameのインスタンスを作成します。
    import oml
    from oraclesai import SpatialDataFrame, DBSpatialDataset
     
    block_groups = SpatialDataFrame.create(DBSpatialDataset(table='la_block_groups',
         schema='oml_user'))

    データセットにはロサンゼルス市内の様々なリージョンに関する情報が含まれ、median_incomehouse_valueなどの機能により、各リージョンの収入に関する情報が提供されます。 その他の機能は、性別、人種、年齢に関する人口統計情報を提供します。

  2. SpatialDataFrameインスタンスの変数(次の表を参照)を確認し、ターゲット変数、説明変数およびジオメトリを表す列を定義します。
    変数 説明
    MEDIAN_INCOME 収入中央値を表すターゲット変数。
    MEAN_AGE 平均年齢。
    MEAN_EDUCATION_LEVEL 「調査」表にリストされている様々な学歴に基づくスコア。
    HOUSE_VALUE リージョンの住宅の中央値。
    PER_WHITE リージョンの白人人口の割合。
    PER_BLACK リージョンの黒人人口の割合。

    次のコードでは、SpatialDataFrameインスタンスから列のサブセットを選択します。

    X = block_groups[['MEDIAN_INCOME', 
                      'MEAN_AGE', 
                      'MEAN_EDUCATION_LEVEL', 
                      'HOUSE_VALUE', 
                      'INTERNET', 
                      'geometry']]
  3. トレーニングと検証、テスト・セットを定義します。
    1. oreaclesai.preprocessingspatial_train_test_split関数を使用して、データをトレーニング・セットおよびテスト・セットに分割します。 データの20%をテスト用に割り当てます。
      from oraclesai.preprocessing import spatial_train_test_split
      
      X_train_valid, X_test, _, _, _, _ = spatial_train_test_split(X, y="MEDIAN_INCOME", 
          test_size=0.2, random_state=32)
    2. データの残りの80%を再度分割して、検証に10%、残りの80%をトレーニングに使用して、トレーニングおよび検証セットを作成します。 検証セットは、テスト・セットで使用する前にモデルのパフォーマンスを評価するのに役立ちます。
      X_train, X_valid, _, _, _, _ = spatial_train_test_split(X_train_valid, y="MEDIAN_INCOME", 
          test_size=0.1, random_state=32)