3.4.2 データの探索
データを調べ、データの品質を理解して評価します。 このステージでは、データを評価してデータ内のデータ型およびノイズを識別します。 欠損値および数値外れ値を探します。
ノート:
データベース内の各レコードはケースと呼ばれ、各ケースはcase_id
で識別されます。 この場合、case idはTIME_ID
で、これは独立した変数です。 売上を均等間隔で予測しています。
次のステップは、データの探索的分析に役立ちます。
-
ライブラリをインポートします
%python
インタプリタ・パラグラフで次のスクリプトを実行して、oml
モジュールとPandaのモジュールをインポートし、表示オプションを設定します:import oml import pandas as pd import numpy as np import matplotlib.pyplot as plt pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) import warnings warnings.simplefilter(action='ignore', category=FutureWarning)
-
SH.SALES表へのDataFrameプロキシ・オブジェクトの作成
oml.sync
関数を使用して、データベース表SALESのプロキシとしてPythonオブジェクトSALESを作成します。oml.sync
関数は、oml.DataFrame
オブジェクトを返します。ノート:
指定したデータベース・スキーマに一度に存在できるのは、1つの環境のみです。"schema=None"
の場合、オブジェクトは現在のユーザーのスキーマ内で検索されます。SALES = oml.sync(table = "SALES", schema = "SH") z.show(SALES.head())
-
販売データセット行および列数
oml.DataFrame
オブジェクトSALESの行数および列数を確認するには、DataFrame.shape
を使用します。print(f"Rows: {SALES.shape[0]}, Columns: SALES.shape[1]}")
Rows: 918843, Columns: 7
-
売上データセット列タイプ
次のスクリプトを実行して、各列のデータ型を表示します。print(f"Data types of each column in the Sales dataset:\n{SALES.dtypes}")
-
列別の欠落値の数
欠落している値があるかどうかを確認するには、次のスクリプトを実行します。 count関数は、各列に対してNULLでない要素の数を返し、
len()
関数はデータセット内の行数を返します。print("Number of missing values in each column is : \n") print(len(SALES)-SALES.count())
-
必要な列を選択し、内容を表示して、売上を予測するためのデータを準備
ここで、
SH.SALES
表から必要な列を選択して、ESM_SH_DATA
というPythonプロキシ・オブジェクトを準備します。 このユース・ケースでは、TIME_ID
およびAMOUNT_SOLD
を選択します。ESM_SH_DATA= SALES[['TIME_ID', 'AMOUNT_SOLD']] z.show(ESM_SH_DATA.head())
-
ESM_SH_DATA行と列
ESM_SH_DATA
のシェイプを確認します:print(f"Rows: {ESM_SH_DATA.shape[0]}, Columns: ESM_SH_DATA.shape[1]}")
Rows: 918843, Columns: 2
これで、データの探索ステージが完了します。
親トピック: 時系列ユース・ケース