機械翻訳について

3.1.2 データの探索

データを調べ、データの品質を理解して評価します。 このステージでは、データを評価してデータ内のデータ型およびノイズを識別します。 欠損値および数値外れ値を探します。

ターゲット変数の特定

データの理解と準備

このユース・ケースでは、アフィニティ・カードのロイヤルティ・プログラムに対する肯定的な応答者である可能性が最も高い顧客を予測するSupport Vector Machineモデルをトレーニングします。 したがって、ターゲット変数は属性AFFINITY_CARDです。

OML4Rを使用してRからデータベース・データにアクセスするには、まず、データベース表、ビューまたは問合せを表すore.frameプロキシ・オブジェクトをRに作成する必要があります。 この例では、プロキシ・オブジェクトは問合せを使用して作成されます。 SUPPLEMENTARY_DEMOGRAPHICSのプロキシ・オブジェクトを作成し、データを評価して、データ内のデータ型とノイズを識別します。 欠落値、外れ値の数値、またはラベルが矛盾するカテゴリ値を探します。

データの準備および理解のために、次のステップを実行します:

  1. (%rを使用して)Rインタプリタ・パラグラフで次のコマンドを実行して、Oracle Machine Learning for Rライブラリをインポートし、行の順序付けに関する警告を抑制します:
    library(ORE)
    options(ore.warn.order=FALSE)
  2. ore.sync関数では、SHスキーマ・データベース表の「補足人口統計」表のプロキシであるore.frameオブジェクトを作成します。
    ore.sync(query = c("SUP_DEM" = "select * from SH.SUPPLEMENTARY_DEMOGRAPHICS"))
    ore.attach()
  3. 次のコマンドを実行して、SUPPLEMENTARY_DEMOGRAPHICS表のいくつかの行を表示
    z.show(head(SUP_DEM))

    SUPPLEMENTARY_DEMOGRAPHICSの上位5つを表示

  4. ore.frameオブジェクトSUPPLEMENTARY_DEMOGRAPHICSの行と列の数を表示するには、z.show(dim(SUP_DEM))を使用
    z.show(dim(SUP_DEM))
    (4500, 14)
  5. @desc演算子を使用して、CUST_DFの列のデータ型を表示します。
    SUP_DEM@desc

    データ・セットのデータ型を表示します。

  6. 次のコマンドを実行して、データに欠落値があるかどうかを確認します。 次のコードでは、CUST_DFプロキシ・オブジェクトの欠落値の合計数を示します。
    sum(is.na(SUP_DEM))
    205

    値205は、SUP_DEMプロキシ・オブジェクトに欠落している値があることを示します。

    OMLでは、自動データ準備(ADP)をサポートしています。 ADPはモデル設定によって有効になります。 ADPを有効にすると、アルゴリズムで必要とされる変換が自動的に実行され、モデルに埋め込まれます。 ADPは、「モデルの構築」ステージで有効にできます。 一般的に使用されるデータの準備方法には、ビニング、正規化、欠損値の処理があります。

    ADPで一部のアルゴリズム用のデータを準備する方法については、ADPによるデータの変換方法を参照してください。

これで、データの理解およびデータの準備ステージが完了します。