oraclesai.outliers 

class LocalOutlierFactor(n_neighbors=20, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, contamination='auto', novelty=False, n_jobs=None, spatial_weights_definition=None, threshold=1.5)

ローカル外れ値係数(LOF)は、データセットからの外れ値を識別するのに役立ちます。 LOFスコアは、トレーニング観察ごとに計算されます。 LOFスコアが大きいほど、観察はより分離されます。ネイバーを使用して、観察のLOFスコアをコンピュートします。

パラメータ:

n_neighbors - int、default=20。 KNNに使用するネイバーの数。 n_neighborsが指定されたサンプル数よりも大きい場合は、すべてのサンプルが使用されます。 spatial_weights_definitionがNoneでない場合は無視されます
algorithm - {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto. 最も近い近傍をコンピュートするために使用されるアルゴリズム: - 'ball_tree'. BallTreeを使用 - 'kd_tree'. KDTreeを使用 - 'brute'. brute-force検索を使用します。 - 'auto'は、fitメソッドに渡される値に基づいて、最も適切なアルゴリズムを決定しようとします。 spatial_weights_definitionがNoneでない場合は無視されます
leaf_size - int、default=30。リーフのサイズは、BallTreeまたはKDTreeに渡されます。 spatial_weights_definitionがNoneでない場合は無視されます
metric - strまたはcallable、default='minkowski'。距離計算に使用するメトリック。デフォルトは'minkowski'で、p = 2のときにEuclideanの標準距離になります。メトリックが「事前計算済」の場合、Xは距離平方行列とみなされます。 Xは疎グラフである可能性があり、その場合は0以外の要素のみが隣接とみなされます。メトリックがコール可能な関数の場合、1Dベクトルを表す2つの配列を入力として取り、それらのベクトル間の距離を示す1つの値を返す必要があります。 spatial_weights_definitionがNoneでない場合は無視されます
p - int、default=2。 Minkowskiメトリックのパラメータ。 p= 1,thisがmanhattan_distance (l1)およびeuclidean_distance (l2)を使用した場合(p = 2)と同等です。任意のpに対しては、minkowski_distance (l_p)が使用されます。 spatial_weights_definitionがNoneでない場合は無視されます
metric_params - dict, default=None。メトリック関数の追加のキーワード引数。
contamination - 'auto'またはfloat、default='auto'。データ・セットの汚染量(データ・セット内の外れ値の割合)。適合する場合、これはサンプルのスコアのしきい値を定義するために使用されます。浮動小数点数の場合、汚染は範囲(0、0.5)にする必要があります。 spatial_weights_definitionがNoneでない場合は無視されます
novelty - bool, default=False。ノベルティ検出にLocalOutlierFactorを使用する場合は、ノベルティをTrueに設定します。この場合、予測は、新しい目に見えないデータにのみ使用し、トレーニング・セットには使用しないでください
n_jobs - int, default=None。実行するパラレル・ジョブの数
spatial_weights_definition - SpatialWeightsDefinition, default=None。空間関係の指定。
threshold - float、default=1.5。この値を超えるLOFスコアは外れ値とみなされます。

fit(X, y=None, geometries=None, spatial_weights=None, crs=None)

トレーニング・セットの各観察のLOFスコアを計算

パラメータ:

X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。クラスタへのトレーニング・インスタンス。
y - 無視。使用されません。慣例によるAPIの一貫性のためにここに存在
geometries - shapely array, default=None。 Xの各サンプルのジオメトリ・データ。
spatial_weights - SpatialWeights, default=None。空間加重マトリックス
crs - pyproj.crs.CRS, default=None。座標参照系

fit_predict(X, y=None, geometries=None, crs=None)

トレーニング・セットの各観察のLOFスコアを計算し、 {-1、1}の値を持つ配列を返します。これは、トレーニング・セットの要素が前の値か外れ値かを示します

パラメータ:

X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。クラスタへのトレーニング・インスタンス。
y - 無視。使用されません。慣例によるAPIの一貫性のためにここに存在
geometries - shapely array, default=None。 Xの各サンプルのジオメトリ・データ。
crs - pyproj.crs.CRS, default=None。座標参照系

property negative_outlier_factor_

返り値:: トレーニング・セットの各観察の負のLOFスコア

property outlier_factor_

返り値:: トレーニング・セットの各観察のLOFスコア

predict(X, geometries=None, crs=None)

予測セットの各要素を、そのLOFスコアに応じて外れ値/外れ値として分類します。 LOFスコアはトレーニング・セットを使用して計算されます

パラメータ:

X - シェイプ(n_samples、n_features)の{numpy array, geopandas dataframe, vector dataframe}。予測セット
geometries - shapely array, default=None。 Xの各サンプルのジオメトリ・データ
crs - pyproj.crs.CRS, default=None。座標参照系