データの探索

3.4.2 データの探索

データを調べ、データの品質を理解して評価します。このステージでは、データを評価してデータ内のデータ型およびノイズを識別します。欠損値および数値外れ値を探します。

ノート:

データベース内の各レコードはケースと呼ばれ、各ケースはcase_idで識別されます。この場合、case idはTIME_IDで、これは独立した変数です。売上を均等間隔で予測しています。

次のステップは、データの探索的分析に役立ちます。

ライブラリをインポートします

%pythonインタプリタ・パラグラフで次のスクリプトを実行して、omlモジュールとPandaのモジュールをインポートし、表示オプションを設定します:

import oml
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
  
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

SH.SALES表へのDataFrameプロキシ・オブジェクトの作成

oml.sync関数を使用して、データベース表SALESのプロキシとしてPythonオブジェクトSALESを作成します。 oml.sync関数は、oml.DataFrameオブジェクトを返します。

ノート:
指定したデータベース・スキーマに一度に存在できるのは、1つの環境のみです。 "schema=None"の場合、オブジェクトは現在のユーザーのスキーマ内で検索されます。
```
SALES = oml.sync(table = "SALES", schema = "SH") 
z.show(SALES.head())
```
販売データセット行および列数

oml.DataFrameオブジェクトSALESの行数および列数を確認するには、DataFrame.shapeを使用します。
```
print(f"Rows: {SALES.shape[0]}, Columns: SALES.shape[1]}")
```
```
Rows: 918843, Columns: 7
```
売上データセット列タイプ
次のスクリプトを実行して、各列のデータ型を表示します。
```
print(f"Data types of each column in the Sales dataset:\n{SALES.dtypes}")
```
列別の欠落値の数

欠落している値があるかどうかを確認するには、次のスクリプトを実行します。 count関数は、各列に対してNULLでない要素の数を返し、len()関数はデータセット内の行数を返します。
```
print("Number of missing values in each column is : \n")
print(len(SALES)-SALES.count())
```
必要な列を選択し、内容を表示して、売上を予測するためのデータを準備

ここで、SH.SALES表から必要な列を選択して、ESM_SH_DATAというPythonプロキシ・オブジェクトを準備します。このユース・ケースでは、TIME_IDおよびAMOUNT_SOLDを選択します。
```
ESM_SH_DATA= SALES[['TIME_ID', 'AMOUNT_SOLD']]
z.show(ESM_SH_DATA.head())
```

ESM_SH_DATA行と列

ESM_SH_DATAのシェイプを確認します:

print(f"Rows: {ESM_SH_DATA.shape[0]}, Columns: ESM_SH_DATA.shape[1]}")

Rows: 918843, Columns: 2

これで、データの探索ステージが完了します。

親トピック: 時系列ユース・ケース