プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

DP CLIの概要

DP CLI (Command Line Interface)シェル・ユーティリティは、手動で、またはcronジョブによってデータ処理ワークフローを起動するために使用されます。

データ処理ワークフローは、個々のHive表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。 表は自動プロビジョニング・タイプ(このトピックでさらに説明)である必要があります。

DP CLIは、Sparkワーカーが実行するワークフローを起動します。 DP CLIワークフローの結果は、表がStudioで生成されたデータ処理ワークフローで処理された場合と同じです。

DP CLIの2つの重要なユースケースは、次のとおりです:
  • Big Data Discovery (BDD)製品をインストールした直後に、Hive表からデータを収集します。 BDDを最初にインストールするときには、既存のHive表は処理されません。 したがって、DP CLIを使用して表の最初のデータ処理操作を起動する必要があります。
  • BDD Hive表検出の起動(これにより、新規または削除されたHive表のデータ処理ワークフローを開始できます)。

DP CLIは手動で実行することも、cronジョブから実行することもできます。 bdd.confファイルでENABLE_HIVE_TABLE_DETECTORプロパティがTRUEに設定されている場合、BDDインストーラでは、インストール手順の一部としてcronジョブが作成されます。

Hive表のスキップおよび自動プロビジョニング

データ処理の視点から見ると、2つのタイプのHive表があります: スキップされた表および自動プロビジョニングされた表。 表タイプは、特殊な表プロパティskipAutoProvisioningの存在によって異なります。 skipAutoProvisioningプロパティ(trueに設定)により、BDD Hive Table Detectorは処理のために表をスキップするように指示されます。

「スキップされた表」は、skipAutoProvisioning表プロパティが用意され、trueに設定されたHive表です。 したがって、スキップされた表に対するデータ処理ワークフローは起動されません(--tableフラグを表に設定してDP CLIを手動で実行しない場合)。 このプロパティは、次の2つのインスタンスで設定されます:
  • 表はStudioから作成されました。この場合、skipAutoProvisioningプロパティは常に表作成時に設定されます。
  • 表はHive管理者によって作成され、対応するBDDデータ・セットはその表からプロビジョニングされました。 その後、このデータ・セットはStudioから削除されました。 (管理者が作成した表から)データ・セットが削除されると、skipAutoProvisioningの表プロパティを追加して、基礎となるHive表が変更されます。

skipAutoProvisioningプロパティの値の変更の詳細は、「Hive表プロパティの変更」を参照してください。

「自動プロビジョニングされた表」は、Hive管理者が作成し、skipAutoProvisioningプロパティを持たないHive表です。 これらの表は、BDD Hive Table Detectorによって起動されるデータ処理ワークフローでプロビジョニングできます。

注意:

BDDデータ・セットが削除されても、そのソースHive表はHiveデータベースから削除されないことに注意してください。 これは、Studioで作成された表または管理者作成された表から生成されたデータ・セットに適用されます。 skipAutoProvisioningプロパティにより、対応するデータ・セットが削除されたときに表が再プロビジョニングされないようにできます(このプロパティがない場合、表の再処理時に、削除されたデータ・セットが再表示されます)。

BDD Hive表検出

BDD Hive表検出プロセスは、HiveデータベースとBDDデータ・セットの同期を自動的に保つプロセスです。 BDD Hive表検出には、次の2つの主要な機能があります:
  • Hiveデータベース内のすべてのHive表を自動的にチェックします:
    • 対応するBDDデータ・セットのない自動プロビジョニングされた表ごとに、BDD Hive表検出機能により新しいデータ・プロビジョニング・ワークフローが起動されます(表がブラックリストでスキップされない場合)。
    • Studio作成表などのスキップされたすべての表について、BDD Hive表Detectorは、対応するBDDデータ・セットがない場合でも、これらの表をプロビジョニングしません。
  • BDDデータ・セットにHive表が関連付けられていないことが検出された場合、データ・セット・クリーン・アップ・プロセスが自動的に起動されます。 (つまり、ソースHive表が存在しない場合、孤立したBDDデータ・セットは自動的に削除されます。) 通常、このシナリオは、Hive管理者がHive表(管理者が作成したものまたは研究的に作成したもの)を削除した場合に発生します。

BDD Hive表検出では、空の表が検出され、それらの表のワークフローは起動されません。

BDD Hive表検出機能は、スクリプトの動作を制御するコマンド・フラグを持つDP CLIで起動されます。 たとえば、処理するHive表を選択できます。 CLIの--whitelistフラグでは、処理する必要のあるHive表をリストするファイルを指定し、--blacklistフラグは、処理中にフィルタ処理で除外する必要のあるHive表を保持してファイルを制御します。