oraclesai.preprocessing

class CategoricalLagTransformer(spatial_weights_definition=None)

カテゴリ・ラグはカテゴリ変数に使用され、近所で最も一般的な値を表します。 たとえば、プロパティ・タイプを表すフィーチャの場合、カテゴリ・ラグは周囲で最も一般的なプロパティです

パラメータ:

spatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定。

fit(X, y=None, geometries=None, spatial_weights=None)

パラメータspatial_weights_definitionおよびジオメトリ列に関連付けられたアルゴリズムを使用して、トレーニング・データの空間重みを計算します。 トレーニング・データおよびジオメトリが格納されます。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

返り値:

self Fitted estimator。

transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)

各ロケーションのネイバーから最も一般的な値を返します。パラメータuse_fit_lagを定義すると、トレーニング・セットのネイバー、または変換メソッドに渡されるデータを使用できます。出力はNumPy配列です。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameである必要があります

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

  • use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データから空間ラグを計算します。そうでない場合は、指定されたデータを使用して空間ラグを取得します。

返り値:

指定されたデータのカテゴリ・ラグ。

class SCoordTransformer(crs=None)

各観察のジオメトリの重心を返すトランスフォーマ

fit(X, y=None, geometries=None)

トレーニングに必要な計算がないため、実装されません。

transform(X, y=None, geometries=None)

ジオメトリのXY座標を返します。非点ジオメトリの場合は、ジオメトリの重心を返します。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

返り値:

変換されたデータ。

class SpatialImputer(missing_values=nan, spatial_weights_definition=None, strategy='mean')

観察ごとにネイバーの値を使用して、欠落している値をすべて埋めます。

パラメータ:
  • missing_values - int、float、str、np.nan、Noneまたはpandas.NA、default=np.nan。 欠落している値のプレースホルダー。 missing_valuesのすべての出現がインプットされます

  • spatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定

  • strategy - {“mean”, “median”, “maximum”, “minimum”}, default=”mean”. 不足している値を埋めるために、ネイバーから指定された統計を計算します。

fit(X, y=None, geometries=None, spatial_weights=None)

spatial_weights_definitionに従って空間ウェイトを計算します。 空間重みを計算できない場合、scikit-learnのSimpleImputerが使用されます。 トレーニング・データおよびジオメトリが格納されます。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

返り値:

self Fitted estimator。

property mask_

値が欠落しているセルの場合はTrue、それ以外の場合はFalseのブール配列

transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)

指定された戦略に従ってデータが入力されたパラメータとして渡されたNumPy配列を返します。 パラメータuse_fit_lagを定義して、トレーニング・セットのネイバーを使用するかどうかを決定します。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

  • use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データからインピュテーションが実行されます。それ以外の場合、指定されたデータが使用されます。

返り値:

変換されたデータ。

class SpatialLagTransformer(spatial_weights_definition=None, strategy='mean')

特定のフィーチャの空間ラグは、各観察の周囲の近傍におけるそのフィーチャの平均値を反映します。 たとえば、近所の場合、特定の住宅の価格の空間ラグは、その周囲の平均住宅価格です。

パラメータ:
  • spatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定

  • strategy - {“mean”, “median”}, default=”mean”. 「median」の場合は、隣人から中央値を計算します。 「mean」の場合、隣人からの平均を計算

fit(X, y=None, geometries=None, spatial_weights=None)

パラメータspatial_weights_definitionに従って空間ウェイトを計算します。 トレーニング・データおよびジオメトリが格納されます。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

返り値:

self Fitted estimator。

transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)

指定されたデータの空間ラグの値を変更します。 use_fit_lag=Trueがトレーニング・セットから空間ラグを計算する場合、そうでない場合は、変換メソッドに渡されるデータから空間ラグを計算します。 この関数は、NumPy配列を返します。

パラメータ:
  • X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数

  • y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。

  • geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameであると想定されます

  • spatial_weights - SpatialWeights, default=None。 空間加重マトリックス

  • use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データから空間ラグを計算します。そうでない場合は、指定されたデータを使用して空間ラグを取得します。

返り値:

変換されたデータ。

spatial_train_test_split(X, y=None, geometries=None, test_size=0.3, numpy_result=False, random_state=None) Tuple

データをトレーニングおよびテストのサブセットに分割します。 各サブ・セットは、次のように分割されます: 説明変数Xとジオメトリ、およびターゲット変数y: Xはn-samples * n-featuresの多ディメンション配列ですが、geometryとyはn-samplesの1ディメンション配列です。

パラメータ:
  • X - oraclesai.SpatialDataFramegeopandas.GeoDataFramepandas.DataFrameまたはnumpy配列。 XがSpatialDataFrameまたはDataFrameの場合、ジオメトリの列とyの列も含めることができます。

  • y - Xまたは1-d numpy配列のターゲット変数列の名前

  • geometries - Xの空間列の名前またはshapelyジオメトリの1-dのnumpy配列

  • test_size - (default=0.3)テスト・セットの割合。 0から1の値

  • numpy_result - Trueの場合、返されるベクトルは常にnumpy配列になります。 Falseの場合、返される型は入力データの型と一致します。

  • random_state - (なし)乱数の生成に使用されるシード。

返り値:

X_train、X_test、y_train、y_test、geometries_train、geometries_testを含むタプル。