プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

新規データをロードするためのワークフロー

この項では、新しいデータがロードされるときにBDDのデータ処理コンポーネント内で実行されるワークフローについて説明します。

このトピックで示すデータ処理ワークフローは、データのロード用で、多数のワークフローの候補の1つです。 このワークフローには、すでにロードされている更新データは表示されません。 リフレッシュおよび増分更新操作の実行の詳細は、「データ・セットの更新」を参照してください。

新しいデータのロードには、次のステージがあります:
  • Hive表のソース・データの検出
  • データ・セットのサンプルのロードおよび作成
  • このデータ・セットに対するエンリッチメントの選択セットを実行(そのように構成されている場合)
  • データのプロファイリング
  • データ・セットの変換
  • Big Data DiscoveryからHadoopへのデータのエクスポート

Studio (Hive表を作成する)から、またはデータ処理CLI (Command Line Interface)ユーティリティを実行して、新しいデータをロードするためのデータ処理ワークフローを起動します。 Hadoopシステム管理者は、このワークフローの一部のステップを制御でき、他のステップはHadoopで自動的に実行されます。

次の図は、新しいデータをロードするためのデータ処理ワークフローがBig Data Discoveryでどのように適合するかを示しています:

この図は、データ処理コンポーネントがBig Data Discoveryにどのように適合するかを説明しています。

このダイアグラムのステップは次のとおりです:
  1. データ・ロードのワークフローは、Studioまたはデータ処理CLIから開始します。
  2. Sparkジョブは、Big Data Discoveryのデータ処理部分がインストールされているHadoopノードで起動されます。
  3. カウント、サンプリング、検出および変換が実行され、Hadoopノードで処理されます。 情報はHDFSに書き込まれ、元に戻されます。
  4. データ処理ワークフローにより、各データ・セットについて、レコードおよびそのスキーマをDgraphにロードするプロセスが起動されます。

要約すると、初期のデータ・ロード中に、Big Data Discoveryのデータ処理コンポーネントでHive表のデータがカウントされ、オプションで「データ・セットのサンプリング」を実行します。 次に、初期データ・プロファイリングを実行し、いくつかのエンリッチメントを適用します。 このトピックでは、これらのステージについて説明します。

データ・セットのサンプリング

HDFSで検出された大きい表からのレコードのサンプリングされたサブセットを操作する場合は、サンプル・データを全表のプロキシとして使用します。 これにより、次のことを実行できます:
  • Big Data Discoveryでは、待機時間を回避し、データ分析の相互作用を増やします。
  • フル・セットを使用しているかのようにデータを分析します。

データ処理では常にサンプリングが実行されるわけではなく、BDDデプロイメント中に使用されるデフォルトのサンプル・サイズよりもソース・データ・セットのレコードが多い場合にのみ、サンプリングが発生します。 デプロイメント時に使用されるデフォルトのサンプル・サイズは、百万レコードです。 後でデータ処理ワークフローを独自に実行する際に、コマンドライン・インタフェース(DP CLI)を使用して、デフォルトのサンプル・サイズをオーバーライドし、独自のものを指定できます。

注意:

ソース・データ・セットのレコード数がサンプル・サイズに指定された値より少ない場合、サンプリングは行われず、データ処理によりソース・データが完全にロードされます。
BDD内のサンプルは次のように扱われます:
  • データ処理には、デフォルト・サイズ・サンプルまたは指定されたサイズを使用して、データのランダム・サンプルが必要です。 BDDは、inbuilt Sparkランダム・サンプリング機能を活用します。
  • ソース・データの行数およびサンプルに対してリクエストされた行数に基づいて、BDDがソース・データを通過し、各レコードについて、特定の(等しい)確率でサンプルに含めます。 その結果、データ処理ではレコードの単純なランダム・サンプリングが作成されます。次のように処理されます:
    • 各要素が選択される確率と同じです。
    • 同じサイズの各サブセットが選択される可能性が等しくなります。

これらの要件をデータ・サンプルの大きい絶対サイズと組み合せると、Big Data Discoveryで取得されたサンプルによって、データのコーパス全体で信頼できる汎化が可能になります。

データ・セットのプロファイリング

「プロファイリング」は、データ・ロード中にBig Data Discoveryのデータ処理で検出された各ソースHive表に関して、Hive表内の特性(列)を決定するプロセスです。

プロファイリングは、データをロードするためのデータ処理ワークフローによって実行され、データ・セットに関するメタデータ情報が次のように作成されます:
  • 属性値分布
  • 属性タイプ
  • トピック
  • 分類
たとえば、特定のデータ・セットを構造化データ、ソーシャル・データまたは地理データの集合として認識できます。

「探索」をStudioで使用すると、属性値またはタイプの分布を深く調べることができます。 これらのメタデータの一部は、「変換」を使用して後で変更できます。 たとえば、Null属性値を実際の値に置換したり、その他の非一貫性を修正できます。

エンリッチメント

「エンリッチメント」は、データ・セットの追加情報(用語、ロケーション、使用言語、センチメント、ビューなど)から導出されます。 Big Data Discoveryは、検出された各データ・セットにどのエンリッチメントが有用であるかを判別し、それらをデータのサンプルに対して自動的に実行します。 自動的に適用されたエンリッチメントの結果、追加の派生メタデータ(列)がデータ・セットに追加されます(地理データ、検出された言語の提案、ポジティブまたはネガティブなセンチメントなど)。

この追加情報を含むデータ・セットは、「カタログ」 in Studioに表示されます。 これにより、検出された各データ・セットに関する初期インサイトが提供され、さらに探索や分析のためにデータ・セットが有益な候補であるかどうかを判断できます。

プロジェクト・データ・セットに対して、自動適用されたエンリッチメントに加え、Studioで「変換」を使用してエンリッチメントを適用することもできます。 「変換」から、エンリッチメントのタイプごとにパラメータを構成できます。 この場合、エンリッチメントは、単に別のタイプの使用可能な変換です。

エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものや、無効または一貫性のない値に対処できるものがあります。

変換

「変換」はデータ・セットに変更されています。 変換を使用すると、次のようなアクションを実行できます:
  • データ型の変更
  • 値の資産計上の変更
  • 属性またはレコードの削除
  • 列の分割
  • 値のグループ化またはビニング
  • 値からの情報の抽出

変換は、データ・ロード・プロセスの前または途中でデータをクレンジングするETLプロセスのかわりとみなすことができます。 場合によっては、既存の属性を上書きするか、新しい属性を作成するために変換を使用します。 一部の変換はエンリッチメントであるため、データがロードされるときに自動的に適用されます。

ほとんどの変換は、Studioの「変換」で特定のオプションとして直接使用できます。 データがロードされると、事前定義済の変換機能のリストを使用して変換スクリプトを作成できます。

データ・セットの集計や結合など、BDDで使用可能な変換の完全なリストは、「Studioユーザー・ガイド」を参照してください。

Big Data DiscoveryからHDFSへのデータのエクスポート

分析結果をBig Data DiscoveryからHDFS/Hiveにエクスポートできます。これを、「HDFSへのエクスポート」と呼びます。

Big Data Discoveryからは、ファイルをBig Data DiscoveryからHDFS/Hiveにエクスポートするプロセスについて説明しています。 HDFSのパースペクティブから、Big Data DiscoveryからHDFSに作業結果をインポートしています。 Big Data Discoveryでは、「Dgraph HDFSエージェント」はHDFSへのエクスポートおよびHDFSからのインポートを担当しています。