プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

ホワイトリストとブラックリストの使用

ホワイトリストでは、Big Data DiscoveryでどのHive表を処理するかを指定し、ブラックリストではデータ処理時にどのHive表を無視するかを指定します。

デフォルトのリストは、DP CLIパッケージで提供されます:
  • cli_whitelist.txtは、デフォルトのホワイトリスト名です。 Hive表が選択されていないため、デフォルト・ホワイトリストは空です。
  • cli_blacklist.txtは、デフォルトのブラックリスト名です。 デフォルトのブラックリストには、すべてのHive表名と一致する.+ regexが1つ含まれています(このため、すべてのHive表はブラックリストに記載され、インポートされません)。

どちらのファイルにも、表のパターンとして使用できるようにする正規表現のコメント・アウトされたサンプルが含まれています。

ホワイトリストを指定するには、次の構文を使用します:
--whiteList cli_whitelist.txt
ブラックリストを指定するには、次の構文を使用します:
--blackList cli_blacklist.txt

DP CLIを実行する場合、両方のリストはオプションです。 ただし、一方または両方のリストを使用する場合は、--databaseフラグを使用します。

--tableフラグを使用してDP CLIを手動で実行し、特定の表を処理する場合、ホワイトリストおよびブラックリストの検証は適用されません。

リスト構文

--whiteListフラグと--blackListフラグは、対応するテキスト・ファイルを引数と見なします。 各テキスト・ファイルに1つ以上の正規表現(regex)が含まれています。 ファイルの正規表現パターンごとに1行ずつ必要です。 パターンはHiveの表名との一致にのみ使用されます(一致するパターンが1つ見つかった場合は、一致が成功します)。

デフォルトのホワイトリストおよびブラックリストには、表のパターンとして使用できるコメント付きのサンプル正規表現が含まれます。 ホワイトリスト・ファイルを編集して、収集する表を指定する正規表現を少なくとも1つ含める必要があります。 ブラックリストはデフォルトで、.+ regexを含むすべての表を除外します。つまり、特定の表のみを除外する場合は、ブラックリストを編集する必要があります。

たとえば、bdd_salesなど、bddで始まる名前のすべての表を処理するとします。 ホワイトリストには次の正規表現エントリが含まれます:

^bdd.*

次に、ホワイトリストでDP CLIを実行でき、ブラックリストを指定できません。

リスト処理

データ処理ワークフローのパターン・マッチャでは、このアルゴリズムが使用されます:
  1. ホワイトリストは最初に解析されます。 ホワイトリストが空でない場合は、処理するHive表のリストが生成されます。 ホワイトリストが空の場合、Hive表は収集されません。
  2. ブラックリストが存在する場合は、ブラックリスト・パターン一致が実行されます。 それ以外の場合、ブラックリスト一致は無視されます。

要約すると、処理対象のHive表のリストを生成するホワイトリストが最初に解析され、次にブラックリストが解析され、スキップされたHive表名のリストが生成されます。 通常、ブラックリスト名の名前によって、ホワイトリストで生成された名前が変更されます。 両方のリストに同じ名前が表示される場合、その表は処理されません。つまり、ブラックリストはホワイトリストから名前を削除できます。

これらのリストの動作を説明するために、売上関連の情報を持つHive表が10個あるとします。 これらの10の表では、名前にclaims_bddなどの_bddサフィクスが付きます。 これらをデータ処理に含めるには、このregexエントリを使用してwhitelist.txtファイルを作成します:
^.*_bdd$
claims_bdd表を除くすべての*_bdd表を処理する場合は、このエントリとともにblacklist.txtファイルを作成します:
claims_bdd

--whiteListフラグと--blackListフラグの両方でDP CLIを実行すると、claims_bdd表を除いてすべての*_bdd表が処理されます。