機械翻訳について

1.2.3 データの理解

データ理解フェーズには、データのロードやビジネス上の問題のデータの分析など、データの収集と調査が含まれます。

様々なデータ・ソースおよび形式を評価します。 Oracle Databaseなどの適切なデータ管理ツールにデータをロードします。 適切に統合できるように、データの関係性を調査します。 データを問い合せてビジュアル化し、属性の分布、ペアや少数の属性の間の関係など、特定のデータマイニングの質問に対処し、簡単な統計分析を実行します。 データを詳細に調べるほど、そのデータによって当該のビジネス問題をどの程度解決できるかを判断できるようになります。 その後、一部のデータを削除するか、データを追加するかを決定できます。 これは、次のようなデータ品質の問題を特定する時期でもあります。
  • データは完全か。
  • データに欠損値があるか。
  • データにはどのようなタイプのエラーがあり、どのように修正できるか。
要約すると、このフェーズでは次のことを行います。
  • データのアクセスおよび収集
  • データの探索
  • データ品質の評価