機械翻訳について

3.4.2 データの探索

データを調べ、データの品質を理解して評価します。 このステージでは、データを評価してデータ内のデータ型およびノイズを識別します。 欠損値および数値外れ値を探します。

ノート:

データベース内の各レコードはケースと呼ばれ、各ケースはcase_idで識別されます。 この場合、case idはTIME_IDで、これは独立した変数です。 売上を均等間隔で予測しています。

次のステップは、データの探索的分析に役立ちます。

  1. ライブラリをインポートします

    %pythonインタプリタ・パラグラフで次のスクリプトを実行して、omlモジュールとPandaのモジュールをインポートし、表示オプションを設定します:

    import oml
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
      
    pd.set_option('display.max_rows', 500)
    pd.set_option('display.max_columns', 500)
    pd.set_option('display.width', 1000)
    
    import warnings
    warnings.simplefilter(action='ignore', category=FutureWarning)
  2. SH.SALES表へのDataFrameプロキシ・オブジェクトの作成

    oml.sync関数を使用して、データベース表SALESのプロキシとしてPythonオブジェクトSALESを作成します。 oml.sync関数は、oml.DataFrameオブジェクトを返します。

    ノート:

    指定したデータベース・スキーマに一度に存在できるのは、1つの環境のみです。 "schema=None"の場合、オブジェクトは現在のユーザーのスキーマ内で検索されます。
    SALES = oml.sync(table = "SALES", schema = "SH") 
    z.show(SALES.head())

    売上データの上位5行を表示します。

  3. 販売データセット行および列数

    oml.DataFrameオブジェクトSALESの行数および列数を確認するには、DataFrame.shapeを使用します。

    print(f"Rows: {SALES.shape[0]}, Columns: SALES.shape[1]}")
    Rows: 918843, Columns: 7
  4. 売上データセット列タイプ

    次のスクリプトを実行して、各列のデータ型を表示します。
    print(f"Data types of each column in the Sales dataset:\n{SALES.dtypes}")

    各列のデータ型を示します。

  5. 列別の欠落値の数

    欠落している値があるかどうかを確認するには、次のスクリプトを実行します。 count関数は、各列に対してNULLでない要素の数を返し、len()関数はデータセット内の行数を返します。

    print("Number of missing values in each column is : \n")
    print(len(SALES)-SALES.count())

    各列の欠落値の数を表示します。

  6. 必要な列を選択し、内容を表示して、売上を予測するためのデータを準備

    ここで、SH.SALES表から必要な列を選択して、ESM_SH_DATAというPythonプロキシ・オブジェクトを準備します。 このユース・ケースでは、TIME_IDおよびAMOUNT_SOLDを選択します。

    ESM_SH_DATA= SALES[['TIME_ID', 'AMOUNT_SOLD']]
    z.show(ESM_SH_DATA.head())

    ESM_SH_DATAデータセットの上位5行を表示します。

  7. ESM_SH_DATA行と列

    ESM_SH_DATAのシェイプを確認します:

    print(f"Rows: {ESM_SH_DATA.shape[0]}, Columns: ESM_SH_DATA.shape[1]}")
    Rows: 918843, Columns: 2

これで、データの探索ステージが完了します。