データの理解
データ理解フェーズには、データのロードやビジネス上の問題のデータの分析など、データの収集と調査が含まれます。
様々なデータ・ソースおよび形式を評価します。Oracle Databaseなどの適切なデータ管理ツールにデータをロードします。適切に統合できるように、データの関係性を調査します。データを問い合せてビジュアル化して、特定のデータ・マイニングの質問(属性の分布や、ペアか少数の属性の間の関係性など)に対処し、簡単な統計分析を実行します。
機械学習の形式の多くは予測です。たとえば、あるモデルでは、教育やその他の人口統計学的要素に基づいて収入レベルを予測できます。予測には、確率(この予測が正しいことの確からしさ)が関連しています。予測確率は信頼度(この予測を信頼できる程度)とも呼ばれます。一部の予測機械学習では、特定の結果を示す条件である、ルールが生成されます。たとえば、あるルールは、学士号を持っていて特定の地域に住んでいる人は、収入が地域の平均収入よりも高いことが多い、ということを表します。ルールには、支持度(母集団のうちこのルールに適合する個体の割合)が関連しています。
機械学習のその他の形式として、データ内のグループを識別するというものがあります。たとえば、モデルによって、母集団のうち、収入が特定の範囲内にある集団、良好な運転歴を持つ集団、年単位で新車をリースする集団を識別するような場合です。
データを詳細に調べるほど、そのデータによって当該のビジネス問題をどの程度解決できるかを判断できるようになります。その後、一部のデータを削除するか、データを追加するかを決定できます。これは、次のようなデータ品質の問題を特定する時期でもあります。
- データは完全か。
- データに欠損値があるか。
- データにはどのようなタイプのエラーがあり、どのように修正できるか。
要約すると、このフェーズでは次のことを行います。
- データのアクセスおよび収集
- データの探索
- データ品質の評価
親トピック: 機械学習プロセス