ホワイトリストは、処理する必要があるHive表を指定し、ブラックリストは、無視する必要があるHive表を指定します。
これらのリストは両方とも、DP CLIを実行する場合のオプションです。たとえば、--tableフラグを使用してDP CLIを手動で実行して特定の表を処理する場合、これらのリストを指定する必要はありません。
どちらのファイルも基本的には空です。デフォルトのホワイトリストはcli_whitelist.txtという名前です。
どちらのフラグも引数としてテキスト・ファイルを使用します。各テキスト・ファイルには、1つ以上の正規表現(regex)が含まれます。ファイル内の正規表現ごとに1つの行が存在する必要があります。Hive表名を照合することのみを目的としてパターンが使用されます(つまり、一致するパターンが1つ見つかれば照合は成功します)。
デフォルトのホワイトリストには、表のパターンとして使用できるサンプルの正規表現が含まれます。これらの表現はコメント・アウトされます。これは、ホワイトリストが基本的に空であることを意味します。空のホワイトリストではいずれの表も処理されません。したがって、収集対象の表を指定する正規表現を少なくとも1つ含めるためにファイルを編集する必要があります。
^bdd.*
デフォルトのリストには両方とも、表のパターンとして使用できるサンプルの正規表現が含まれています。サンプルの表現はコメント・アウトされています。
したがって、ホワイトリストが最初に解析されて、処理対象のHive表のリストが生成された後、ブラックリストが解析されて、スキップされるHive表名のリストが生成されます。通常、ブラックリスト内の名前により、ホワイトリストによって生成された名前が変更されます。両方のリストに同じ表名が表示されている場合、この表は処理されません(つまり、ブラックリストにより、実質的にホワイトリストから名前を削除できます)。
^.*_bdd$
claims_bdd
--whiteListおよび--blackListフラグを使用してDP CLIを実行すると、claims_bdd表を除くすべての*_bdd表が処理されます。