oraclesai.preprocessing
- class CategoricalLagTransformer(spatial_weights_definition=None)
カテゴリ・ラグはカテゴリ変数に使用され、近所で最も一般的な値を表します。 たとえば、プロパティ・タイプを表すフィーチャの場合、カテゴリ・ラグは周囲で最も一般的なプロパティです
- パラメータ:
spatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定。
- fit(X, y=None, geometries=None, spatial_weights=None)
パラメータ
spatial_weights_definition
およびジオメトリ列に関連付けられたアルゴリズムを使用して、トレーニング・データの空間重みを計算します。 トレーニング・データおよびジオメトリが格納されます。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されますspatial_weights - SpatialWeights, default=None。 空間加重マトリックス
- 返り値:
self Fitted estimator。
- transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)
各ロケーションのネイバーから最も一般的な値を返します。パラメータ
use_fit_lag
を定義すると、トレーニング・セットのネイバー、または変換メソッドに渡されるデータを使用できます。出力はNumPy配列です。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。 Xの各サンプルのジオメトリ・データ。 文字列として指定した場合、XはDataFrameである必要があります
spatial_weights - SpatialWeights, default=None。 空間加重マトリックス
use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データから空間ラグを計算します。そうでない場合は、指定されたデータを使用して空間ラグを取得します。
- 返り値:
指定されたデータのカテゴリ・ラグ。
- class SCoordTransformer(crs=None)
各観察のジオメトリの重心を返すトランスフォーマ
- fit(X, y=None, geometries=None)
トレーニングに必要な計算がないため、実装されません。
- transform(X, y=None, geometries=None)
ジオメトリのXY座標を返します。非点ジオメトリの場合は、ジオメトリの重心を返します。
- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されます
- 返り値:
変換されたデータ。
- class SpatialImputer(missing_values=nan, spatial_weights_definition=None, strategy='mean')
観察ごとにネイバーの値を使用して、欠落している値をすべて埋めます。
- パラメータ:
missing_values - int、float、str、np.nan、Noneまたはpandas.NA、default=np.nan。 欠落している値のプレースホルダー。
missing_values
のすべての出現がインプットされますspatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定
strategy - {“mean”, “median”, “maximum”, “minimum”}, default=”mean”. 不足している値を埋めるために、ネイバーから指定された統計を計算します。
- fit(X, y=None, geometries=None, spatial_weights=None)
spatial_weights_definition
に従って空間ウェイトを計算します。 空間重みを計算できない場合、scikit-learnのSimpleImputer
が使用されます。 トレーニング・データおよびジオメトリが格納されます。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されますspatial_weights - SpatialWeights, default=None。 空間加重マトリックス
- 返り値:
self Fitted estimator。
- property mask_
値が欠落しているセルの場合はTrue、それ以外の場合はFalseのブール配列
- transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)
指定された戦略に従ってデータが入力されたパラメータとして渡されたNumPy配列を返します。 パラメータ
use_fit_lag
を定義して、トレーニング・セットのネイバーを使用するかどうかを決定します。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されますspatial_weights - SpatialWeights, default=None。 空間加重マトリックス
use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データからインピュテーションが実行されます。それ以外の場合、指定されたデータが使用されます。
- 返り値:
変換されたデータ。
- class SpatialLagTransformer(spatial_weights_definition=None, strategy='mean')
特定のフィーチャの空間ラグは、各観察の周囲の近傍におけるそのフィーチャの平均値を反映します。 たとえば、近所の場合、特定の住宅の価格の空間ラグは、その周囲の平均住宅価格です。
- パラメータ:
spatial_weights_definition - SpatialWeightsDefinition, default=None。 空間関係の指定
strategy - {“mean”, “median”}, default=”mean”. 「median」の場合は、隣人から中央値を計算します。 「mean」の場合、隣人からの平均を計算
- fit(X, y=None, geometries=None, spatial_weights=None)
パラメータ
spatial_weights_definition
に従って空間ウェイトを計算します。 トレーニング・データおよびジオメトリが格納されます。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されますspatial_weights - SpatialWeights, default=None。 空間加重マトリックス
- 返り値:
self Fitted estimator。
- transform(X, y=None, geometries=None, spatial_weights=None, use_fit_lag=False)
指定されたデータの空間ラグの値を変更します。
use_fit_lag=True
がトレーニング・セットから空間ラグを計算する場合、そうでない場合は、変換メソッドに渡されるデータから空間ラグを計算します。 この関数は、NumPy配列を返します。- パラメータ:
X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。 独立変数
y - 無視。 使用されず、慣例によるAPIの一貫性のために存在します。
geometries - shapely配列または文字列。default=None。
X
の各サンプルのジオメトリ・データ。 文字列として指定した場合、X
はDataFrameであると想定されますspatial_weights - SpatialWeights, default=None。 空間加重マトリックス
use_fit_lag - Boolean, default=False。 Trueの場合、トレーニング・データから空間ラグを計算します。そうでない場合は、指定されたデータを使用して空間ラグを取得します。
- 返り値:
変換されたデータ。
- spatial_train_test_split(X, y=None, geometries=None, test_size=0.3, numpy_result=False, random_state=None) Tuple
データをトレーニングおよびテストのサブセットに分割します。 各サブ・セットは、次のように分割されます: 説明変数Xとジオメトリ、およびターゲット変数y: Xはn-samples * n-featuresの多ディメンション配列ですが、geometryとyはn-samplesの1ディメンション配列です。
- パラメータ:
X -
oraclesai.SpatialDataFrame
、geopandas.GeoDataFrame
、pandas.DataFrame
またはnumpy配列。X
がSpatialDataFrameまたはDataFrameの場合、ジオメトリの列とyの列も含めることができます。y -
X
または1-d numpy配列のターゲット変数列の名前geometries -
X
の空間列の名前またはshapelyジオメトリの1-dのnumpy配列test_size - (default=0.3)テスト・セットの割合。 0から1の値
numpy_result - Trueの場合、返されるベクトルは常にnumpy配列になります。 Falseの場合、返される型は入力データの型と一致します。
random_state - (なし)乱数の生成に使用されるシード。
- 返り値:
X_train、X_test、y_train、y_test、geometries_train、geometries_testを含むタプル。