リフレッシュ・フラグの構文

このトピックでは、--refreshDataフラグの構文について説明します。

リフレッシュ更新操作のDP CLIフラグの構文は、次のいずれかです。
./data_processing_CLI --refreshData <dsKey>
または
./data_processing_CLI --refreshData <dsKey> --table <tableName>
または
./data_processing_CLI --refreshData <dsKey> --table <tableName> --database <dbName>
これらの意味は、次のとおりです。
  • --refreshData (-refreshと省略)は必須であり、更新するデータ・セットのデータ・セット・キーを指定します。
  • --table (-tと省略)はオプションであり、ソース・データに使用するHive表を指定します。このフラグでは、元のデータ・セットの作成に使用されたソースHive表をオーバーライドできます(元のHive表の名前はデータ・セットのメタデータに格納されます)。
  • --database (-dと省略)はオプションであり、--tableフラグで指定されたHive表のデータベースを指定します。このフラグでは、元のデータ・セットの作成に使用されたデータベースをオーバーライドできます。--databaseフラグは、--tableフラグも使用されている場合にのみ使用できます。

dsKey値は、Studioの「データ・セット・キー」プロパティで使用できます。詳細は、「データ・セット・キーの取得」を参照してください。

--tableおよび--databaseフラグの使用方法

データ・セットが最初に作成されるときに、ソースHive表とソースHiveデータベースの名前がそのデータ・セットのDSI (DataSetインベントリ)メタデータに格納されます。--tableフラグでは、デフォルトのソースHive表をオーバーライドでき、--databaseフラグではデータ・セットのメタデータ内のデータベース・セットをオーバーライドできます。

この2つのフラグは一時的です。つまり、操作の特定の実行にのみ使用され、データ・セットのメタデータを更新しません。

これらのフラグが指定されていない場合、使用されるHive表とHiveデータベースはデータ・セットのメタデータで使用されているものになります。

これらのフラグは、データ・セット内のデータを別のHive表のデータで一時的に置換する場合に使用します。データ変更が永続的な場合は、目的のHive表から新規データ・セットを作成することをお薦めします。これにより、新規データ・セットに対して正確に調整された変換スクリプトも作成できます。