DP CLI (Command Line Interface)シェル・ユーティリティは、手動で、またはcronジョブによってデータ処理ワークフローを起動するために使用されます。
データ処理ワークフローは、個々のHive表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。 表は自動プロビジョニング・タイプ(このトピックでさらに説明)である必要があります。
DP CLIは、Sparkワーカーが実行するワークフローを起動します。 DP CLIワークフローの結果は、表がStudioで生成されたデータ処理ワークフローで処理された場合と同じです。
DP CLIは手動で実行することも、cronジョブから実行することもできます。 bdd.conf
ファイルでENABLE_HIVE_TABLE_DETECTOR
プロパティがTRUEに設定されている場合、BDDインストーラでは、インストール手順の一部としてcronジョブが作成されます。
Hive表のスキップおよび自動プロビジョニング
データ処理の視点から見ると、2つのタイプのHive表があります: スキップされた表および自動プロビジョニングされた表。 表タイプは、特殊な表プロパティskipAutoProvisioning
の存在によって異なります。 skipAutoProvisioning
プロパティ(true
に設定)により、BDD Hive Table Detectorは処理のために表をスキップするように指示されます。
skipAutoProvisioning
表プロパティが用意され、true
に設定されたHive表です。 したがって、スキップされた表に対するデータ処理ワークフローは起動されません(--table
フラグを表に設定してDP CLIを手動で実行しない場合)。 このプロパティは、次の2つのインスタンスで設定されます:
skipAutoProvisioning
プロパティは常に表作成時に設定されます。
skipAutoProvisioning
の表プロパティを追加して、基礎となるHive表が変更されます。
skipAutoProvisioning
プロパティの値の変更の詳細は、「Hive表プロパティの変更」を参照してください。
「自動プロビジョニングされた表」は、Hive管理者が作成し、skipAutoProvisioning
プロパティを持たないHive表です。 これらの表は、BDD Hive Table Detectorによって起動されるデータ処理ワークフローでプロビジョニングできます。
注意:
BDDデータ・セットが削除されても、そのソースHive表はHiveデータベースから削除されないことに注意してください。 これは、Studioで作成された表または管理者作成された表から生成されたデータ・セットに適用されます。skipAutoProvisioning
プロパティにより、対応するデータ・セットが削除されたときに表が再プロビジョニングされないようにできます(このプロパティがない場合、表の再処理時に、削除されたデータ・セットが再表示されます)。
BDD Hive表検出
BDD Hive表検出では、空の表が検出され、それらの表のワークフローは起動されません。
BDD Hive表検出機能は、スクリプトの動作を制御するコマンド・フラグを持つDP CLIで起動されます。 たとえば、処理するHive表を選択できます。 CLIの--whitelistフラグでは、処理する必要のあるHive表をリストするファイルを指定し、--blacklistフラグは、処理中にフィルタ処理で除外する必要のあるHive表を保持してファイルを制御します。