プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

更新のリフレッシュ

リフレッシュを実行すると、スキーマ、およびプロジェクト・データ・セット内のすべてのレコードが、ソースHive表のスキーマとレコードに置き換えられます。

DP CLIの--refreshDataフラグ(-refreshと省略されています)では、元のHive表からのBDDデータ・セットの完全データ・リフレッシュが実行されます。 データ・セットはプロジェクト・データ・セットである必要があります(つまり、Studioプロジェクトに追加する必要があります)。 フル・データ・セットのロードは特定のプロジェクトのデータ・セットのみに影響します。Studioカタログに表示されるデータ・セットには影響しません。

リフレッシュ更新を実行すると、次の結果が生成されます:
  • Hive表に格納されているすべてのレコードがそのデータ・セットに対してロードされます。 これには、Hive管理者が行ったすべての表の更新が含まれます。
  • データ・セットがサンプリングされた場合、データ・セットの全サイズまで増加します。 つまり、現在は完全なデータ・セットです。
  • データ・セットに変換スクリプトが含まれている場合は、そのスクリプトがデータ・セット全体に対して実行されるため、すべての変換がプロジェクト内のデータ・セット全体に適用されます。
  • --disableSearchフラグも使用する場合、データ・セットのレコード検索および値検索は無効になります。

DP CLIリフレッシュの更新は、「完全データ・セットのロード」の機能を使用してStudioで行うことができます(ただし、DP CLIとは異なるソース表を指定することはできません)。

データ・セットの変換が進行中の場合は、DP CLIリフレッシュの更新を開始しないでください。 このシナリオでは、リフレッシュの更新は失敗し、通知がStudioに送信されます:
Reload of <logical name> from CLI has failed. Please contact an administrator.

スキーマの変更

ソースHive表のスキーマまたはデータ(あるいはその両方)が変更された場合、データ・セットのスキーマの変更方法に制限はありません。 この非制限事項は、リフレッシュ操作で、データ・セットのすべてのコンテンツが削除され、Hive表のコンテンツと置き換えられる、強制終了および塗りつぶしの戦略が使用されるためです。

更新のリフレッシュの変換スクリプト

データ・セットに変換スクリプトが関連付けられている場合、スクリプトは新規に収集された属性およびデータに対して実行されます。 ただし、スキーマの変更により、スクリプトの一部のステップが実行されない場合があります。 次に例を示します。
  • Hive表の既存の列を削除できます。 その結果、削除された属性を参照する変換スクリプト・ステップはすべてスキップされます。
  • 新しい列をHive表に追加すると、データ・セット内に新しい属性が作成されます。 これらの新しい属性はスクリプトで参照されないため、変換スクリプトは実行されません。
  • Hive列にデータを追加すると、属性のデータ型が異なる場合があります(それ以前のLong型ではなくStringなど)。 変更された属性に対して変換スクリプトが実行される場合と実行されない場合があります。

次のダイアグラムは、変換スクリプトに対するスキーマ変更の影響を示しています:

スキーマ変更が変換スクリプトに及ぼす影響。

データ・セットに関連付けられた変換スクリプトが存在せず、Hive表スキーマが変更された場合、データ・セットは新しいスキーマおよびデータで更新されます。