プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ・セットの更新について

DP CLIを使用して更新のリフレッシュおよび増分更新を実行することで、データ・セットを更新できます。

最初に作成されたBDDデータ・セットはサンプリングされる場合があります。つまり、BDDデータ・セットのレコードはソースHive表のレコード数より少なくなります。 また、ソースHive表にレコードを追加でき、これらの新しいレコードはデフォルトではデータ・セットに追加されません。

BDD管理者がデータ・セットをソースのHive表と同期できるように、2つのDP CLI操作を使用できます:
  • --refreshDataフラグ(-refreshと省略されています)では、元のHive表にあるBDDデータ・セットの完全データ・リフレッシュが実行されます。 これは、データ・セットにソースHive表のすべてのレコードが含まれることを意味します。 データ・セットがすでにサンプリングされている場合は、完全なデータ・セットになります。 また、レコードがHive表に追加されると、更新のリフレッシュ操作によりデータ・セットとソースHive表の同期を保つことができます。
  • --incrementalUpdateフラグ(-incrementalと略記)では、元のHive表からBDDデータ・セットの増分更新が実行され、フィルタ述語を使用して新しいレコードを選択します。 この操作は、データ・セットが増分更新用に構成された後でのみ実行できることに注意してください。

DP CLIのリフレッシュの更新は、Studioで「完全データ・セットのロード」の機能を使用して行うことができる点に注意してください。 ただし、Studioではこの機能がサポートされていないため、増分データ更新はDP CLIを介してのみ実行できます。

データ・セットの再指定

ソース・データをStudioにアップロードし、リフレッシュと増分更新を実行することによってデータ・セットを作成した場合は、ソース・データ・セットを新しいHive表を指すように変更する必要があります。 (データ・セットがHiveで直接作成された表に基づいている場合、この変更は必要ありません。) この再起動操作の詳細は、「Studioユーザー・ガイド」でプロジェクトをBDDアプリケーションに変換する方法のトピックを参照してください。