ホワイトリストでは、Big Data DiscoveryでどのHive表を処理するかを指定し、ブラックリストではデータ処理時にどのHive表を無視するかを指定します。
cli_whitelist.txt
は、デフォルトのホワイトリスト名です。 Hive表が選択されていないため、デフォルト・ホワイトリストは空です。
cli_blacklist.txt
は、デフォルトのブラックリスト名です。 デフォルトのブラックリストには、すべてのHive表名と一致する.+ regexが1つ含まれています(このため、すべてのHive表はブラックリストに記載され、インポートされません)。
どちらのファイルにも、表のパターンとして使用できるようにする正規表現のコメント・アウトされたサンプルが含まれています。
--whiteList cli_whitelist.txt
--blackList cli_blacklist.txt
DP CLIを実行する場合、両方のリストはオプションです。 ただし、一方または両方のリストを使用する場合は、--databaseフラグを使用します。
--tableフラグを使用してDP CLIを手動で実行し、特定の表を処理する場合、ホワイトリストおよびブラックリストの検証は適用されません。
リスト構文
--whiteListフラグと--blackListフラグは、対応するテキスト・ファイルを引数と見なします。 各テキスト・ファイルに1つ以上の正規表現(regex)が含まれています。 ファイルの正規表現パターンごとに1行ずつ必要です。 パターンはHiveの表名との一致にのみ使用されます(一致するパターンが1つ見つかった場合は、一致が成功します)。
デフォルトのホワイトリストおよびブラックリストには、表のパターンとして使用できるコメント付きのサンプル正規表現が含まれます。 ホワイトリスト・ファイルを編集して、収集する表を指定する正規表現を少なくとも1つ含める必要があります。 ブラックリストはデフォルトで、.+ regexを含むすべての表を除外します。つまり、特定の表のみを除外する場合は、ブラックリストを編集する必要があります。
たとえば、bdd_sales
など、bdd
で始まる名前のすべての表を処理するとします。 ホワイトリストには次の正規表現エントリが含まれます:
^bdd.*
次に、ホワイトリストでDP CLIを実行でき、ブラックリストを指定できません。
リスト処理
要約すると、処理対象のHive表のリストを生成するホワイトリストが最初に解析され、次にブラックリストが解析され、スキップされたHive表名のリストが生成されます。 通常、ブラックリスト名の名前によって、ホワイトリストで生成された名前が変更されます。 両方のリストに同じ名前が表示される場合、その表は処理されません。つまり、ブラックリストはホワイトリストから名前を削除できます。
例
claims_bdd
などの_bdd
サフィクスが付きます。 これらをデータ処理に含めるには、このregexエントリを使用してwhitelist.txt
ファイルを作成します:
^.*_bdd$
claims_bdd
表を除くすべての*_bdd
表を処理する場合は、このエントリとともにblacklist.txt
ファイルを作成します:
claims_bdd
--whiteListフラグと--blackListフラグの両方でDP CLIを実行すると、claims_bdd
表を除いてすべての*_bdd
表が処理されます。