DP CLI構成

DP CLIには、デフォルトのプロパティを設定する構成ファイルedp.propertiesがあります。

デフォルトでは、edp.propertiesファイルは$BDD_HOME/dataprocessing/edp_cli/configディレクトリにあります。

プロパティのデフォルト値の一部は、bdd.confのインストール構成ファイルから移入されます。インストール後、テキスト・エディタでedp.propertiesファイルを開くことで、CLI構成パラメータを変更できます。

データ処理のデフォルト

データ処理のデフォルトを設定するプロパティは、次のとおりです:

データ処理プロパティ	説明
`maxRecordsForNewDataSet`	新規データ・セットのサンプル・サイズ(つまり、ソースHive表からのサンプリングされたレコードの数)の最大レコード数を指定します。実際には、これによりBDDデータセット内のレコードの最大数が設定されます。この設定では、すべての新しいデータ・セットのサンプル・サイズが制御され、変換操作によって生成されるサンプル・サイズも制御されることに注意してください(変換スクリプトを含むデータ・セットのリフレッシュ更新時など)。デフォルトは、`bdd.conf`ファイルの`MAX_RECORDS`プロパティで設定されます。 CLIの`--maxRecords`フラグは、この設定をオーバーライドできます。
`runEnrichment`	データ・エンリッチメント・モジュールを実行するかどうかを指定します。デフォルトは、`bdd.conf`ファイルの`ENABLE_ENRICHMENTS`プロパティで設定されます。 CLIの`--runEnrichment`フラグを使用して、この設定をオーバーライドできます。 CLIの`--excludePlugins`フラグを使用して、いくつかのデータ・エンリッチメント・モジュールを除外することもできます。
`defaultLanguage`	作成されたデータ・セットのすべての属性の言語。デフォルトは、`bdd.conf`ファイルの`LANGUAGE`プロパティで設定されます。サポートされている言語コードは、「サポートされている言語」を参照してください。
`edpDataDir`	データ収集および変換操作が処理されるHDFSディレクトリのロケーションを指定します。デフォルトのロケーションは`/user/bdd/edp/data`ディレクトリです。
`datasetAccessType`	Studio UIでどのStudioユーザーがデータ・セットにアクセスできるかを決定する、データ・セットのアクセス・タイプを設定します。このプロパティは、大/小文字を区別しない次のいずれかの値を取ります: `public`とは、すべてのStudioユーザーがデータ・セットにアクセスできることを意味します。これはデフォルトです。 `private`とは、データセットにアクセスできるのは、指定されたStudioユーザーおよびグループのみであることを意味します。ユーザーおよびグループは、DataSet Inventoryのデータ・セット・エントリの属性セットで指定されます。
`notificationsServerUrl`	通知サービスのURLを指定します。この値は、BDDインストーラによって自動的に設定され、次の例のような値になります: https://web14.example.com:7003/bdd/v1/api/workflows

Dgraphゲートウェイ接続設定

これらのプロパティを使用して、Dgraphノードを管理しているDgraphゲートウェイへのアクセスを制御します:

Dgraphゲートウェイ・プロパティ	説明
`endecaServerHost`	Dgraphゲートウェイが稼働しているホストの名前。デフォルト名は、`bdd.conf`構成ファイルで指定されます。
`endecaServerPort`	Dgraphゲートウェイがリスニングしているポート。デフォルトは7003です。
`endecaServerContextRoot`	WebLogic Server内の管理対象サーバーで実行されるDgraphゲートウェイのコンテキスト・ルート。値は次のように設定: `/endeca-server`

Kerberosの資格証明

bdd.confファイルのENABLE_KERBEROSプロパティがTRUEに設定されている場合、インストール時のKerberosサポートのためにDP CLIが有効になります。 bdd.confファイルには、Kerberosプリンシパルの名前を指定するパラメータや、Kerberos keytabファイルおよびKerberos構成ファイルへのパスもあります。インストール・スクリプトにより、edp.propertiesファイルに次の表のプロパティが移入されます。

Kerberosプロパティ	説明
`isKerberized`	Kerberosサポートを有効にするかどうかを指定します。デフォルト値は、`bdd.conf`ファイルの`ENABLE_KERBEROS`プロパティで設定されます。
`localKerberosPrincipal`	Kerberosプリンシパルの名前。デフォルト名は、`bdd.conf`ファイルの`KERBEROS_PRINCIPAL`プロパティで設定されます。
`localKerberosKeytabPath`	WebLogic管理サーバー上のKerberos keytabファイルへのパス。デフォルト・パスは、`bdd.conf`ファイルの`KERBEROS_KEYTAB_PATH`プロパティによって設定されます。
`clusterKerberosPrincipal`	Kerberosプリンシパルの名前。デフォルト名は、`bdd.conf`ファイルの`KERBEROS_PRINCIPAL`プロパティで設定されます。
`clusterKerberosKeytabPath`	WebLogic管理サーバー上のKerberos keytabファイルへのパス。デフォルト・パスは、`bdd.conf`ファイルの`KERBEROS_KEYTAB_PATH`プロパティによって設定されます。
`krb5ConfPath`	`krb5.conf`構成ファイルのパス。このファイルには、Kerberos V5ライブラリに必要な構成情報が含まれています。これには、デフォルトのKerberosレルムと、既知のレルムのKerberosキー・ディストリビューション・センターのロケーションを説明する情報が含まれます。デフォルト・パスは、`bdd.conf`ファイルの`KRB5_CONF_PATH`プロパティによって設定されます。ただし、`krb5.conf`ファイルのローカルのカスタムのロケーションを指定できます。

これらのパラメータの詳細は、「インストレーション・ガイド」を参照してください

Hadoopの接続設定

Hadoop環境のプロセスおよびリソースへの接続を定義するパラメータは、次のとおりです:

Hadoopパラメータ	説明
`hiveServerHost`	Hiveサーバーが稼働しているホストの名前。デフォルト値は、BDDインストール時に設定されます。
`hiveServerPort`	Hiveサーバーがリスニングするポート。デフォルト値は、BDDインストール時に設定されます。
`clusterOltHome`	Sparkのワーカー・ノード上のOLTディレクトリへのパス。デフォルトのロケーションは`$BDD_HOME/common/edp/olt`ディレクトリです。
`oltHome`	`clusterOltHome`とこのパラメータの両方が必須であり、両方とも同じ値に設定する必要があります。
`hadoopClusterType`	Hadoopのディストリビューションに応じたインストール・タイプ。この値は、`bdd.conf`ファイルの`INSTALL_TYPE`プロパティで設定されます。
`hadoopTrustStore`	HDFS、YARN、HiveおよびKMS用の証明書が格納されているインストール・マシン上のディレクトリへのパス。 TLS/SSLが有効なクラスタに必要です。デフォルト・パスは、`bdd.conf`ファイルの`HADOOP_CERTIFICATES_PATH`プロパティによって設定されます。

Sparkの環境設定

次のパラメータで、Sparkのワーカーとのやり取りに関する設定を定義します:

Sparkプロパティ	説明
`sparkMasterUrl`	SparkクラスタのマスターURLを指定します。 Spark-on-YARNモードでは、ResourceManagerアドレスは、このパラメータに`yarn-cluster`を指定するのみで、Hadoop構成から取得します。デフォルト値は、BDDインストール時に設定されます。
`sparkDynamicAllocation`	データ処理が実行元リソースを動的にコンピュートするか、静的実行リソース構成を使用するかを示します: falseに設定されている場合、静的リソース・パラメータ(`sparkDriverMemory`、`sparkDriverCores`、`sparkExecutorMemory`、`sparkExecutorCores`および`sparkExecutors`)の値が必要であり、使用されます。 trueに設定されている場合は、エグゼキュータ・リソースの値が動的に計算されます。これは、静的リソース・パラメータが不要であり、指定されていても無視されることを意味します。デフォルトは、`bdd.conf`ファイルの`SPARK_DYNAMIC_ALLOCATION`プロパティで設定されます。
`sparkDriverMemory`	各Sparkドライバ・プロセスに使用するメモリー量(JVMのメモリー文字列と同じ形式(512m、2g、10gなど)。デフォルトは、`bdd.conf`ファイルの`SPARK_DRIVER_MEMORY`プロパティで設定されます。
`sparkDriverCores`	Sparkドライバで使用するCPUコアの最大数。デフォルトは、`bdd.conf`ファイルの`SPARK_DRIVER_CORES`プロパティで設定されます。
`sparkExecutorMemory`	各Spark executorプロセスに使用するメモリーの量。JVMメモリー文字列(512m、2g、10gなど)と同じ形式です。デフォルトは、`bdd.conf`ファイルの`SPARK_EXECUTOR_MEMORY`プロパティで設定されます。この設定は、Cloudera ManagerのSpark 「ワーカー・スレッドのJavaヒープ・サイズ合計(バイト)」 (`executor_total_max_heapsize`)プロパティ以下である必要があります。 Cloudera Managerでこのプロパティにアクセスするには、「クラスタ> Spark (スタンドアロン)」を選択してから「構成」タブをクリックします。このプロパティは、「ワーカー・デフォルト・グループ」カテゴリにあります(クラシック表示を使用)。
`sparkExecutorCores`	各Sparkエグゼキュータで使用するCPUコアの最大数。デフォルトは、`bdd.conf`ファイルの`SPARK_EXECUTOR_CORES`プロパティで設定されます。
`sparkExecutors`	起動するSparkエグゼキュータの合計数。デフォルトは、`bdd.conf`ファイルの`SPARK_EXECUTORS`プロパティで設定されます。
`yarnQueue`	データ処理ジョブが発行されるYARNキュー。デフォルト値は、`bdd.conf`ファイルの`YARN_QUEUE`プロパティで設定されます。
`maxSplitSizeMB`	Spark入力の最大パーティション・サイズ(MB)。これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドします。パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。これにより、速度と安定性の両方が向上します。デフォルトは`bdd.conf`ファイルの`MAX_INPUT_SPLIT_SIZE`プロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります: Hadoopクラスタで処理能力が非常に多く、データ・セットのほとんどが(1GB前後で)小さい場合、この値を減らすことができます。まれに、データ・エンリッチメントが有効になっている場合、パーティション内のエンリッチ済データ・セットが大きすぎて、そのYARNコンテナが処理できないことがあります。これが発生する場合、各パーティションで必要なメモリー量を減らすために、この値を減らすことができます。このプロパティが空の場合、DP CLIは起動時にエラーをログに記録し、デフォルト値の32MBを使用します。

Jarのロケーションの設定

次のプロパティは、ワークフローで使用されるjarのパスを指定します:

Jarプロパティ	説明
`sparkYarnJar`	Spark-on-YARNで使用されるJARファイルへのパス。デフォルト・パスは、`bdd.conf`ファイルの`SPARK_ON_YARN_JAR`プロパティによって設定されます。ただし、その他のJAR (`edpLogging.jar`など)はインストーラによってパスに追加されます。
`bddHadoopFatJar`	クラスタ上のHadoop共有ライブラリ(`bddHadoopFatJar.jar`のファイル名)のロケーションへのパス。このパスはinstaller.によって設定され、通常は`$BDD_HOME/common/hadoop/lib`ディレクトリになります。 `data_processing_CLI`スクリプトには、DP CLIクライアントのローカル・ファイル・システム上のHadoop共有ライブラリのロケーションを指定する`BDD_HADOOP_FATJAR`プロパティがあります。
`edpJarDir`	Sparkワーカーのデータ処理JARファイルがクラスタ上に配置されているディレクトリへのパス。デフォルトのロケーションは`$BDD_HOME/common/edp/lib`ディレクトリです。
`extraJars`	顧客が使用する追加のJARファイル(カスタムSerDe JARへのパスなど)へのパス。デフォルト・パスは、`bdd.conf`ファイルの`DP_ADDITIONAL_JARS`プロパティによって設定されます。

Kryoシリアライズ設定

次のプロパティは、Kryo直列化の使用を定義します:

Kryoプロパティ	説明
`kryoMode`	直列化のために(`true`)を有効にするか、無効にする(`false`)かを指定します。 BDDではKryo直列化がサポートされていないため、このプロパティが`false`に設定されていることを確認してください。
`kryoBufferMemSizeMB`	Kryo内で許可する最大オブジェクト・サイズ(MB)。このプロパティは、`kryoMode`プロパティと同様にBDDワークフローではサポートされていません。

JAVA_HOME設定

CLI構成プロパティの設定に加え、データ処理CLIを実行するときに呼び出される、特定のバージョンのJavaが含まれるディレクトリにJAVA_HOME環境変数が設定されていることを確認します。