DP CLIには、デフォルトのプロパティを設定する構成ファイルedp.propertiesがあります。
デフォルトでは、edp.propertiesファイルは$BDD_HOME/dataprocessing/edp_cli/configディレクトリにあります。
プロパティのデフォルト値の一部は、bdd.confのインストール構成ファイルから移入されます。 インストール後、テキスト・エディタでedp.propertiesファイルを開くことで、CLI構成パラメータを変更できます。
データ処理のデフォルト
| データ処理プロパティ | 説明 |
|---|---|
maxRecordsForNewDataSet
|
新規データ・セットのサンプル・サイズ(つまり、ソースHive表からのサンプリングされたレコードの数)の最大レコード数を指定します。 実際には、これによりBDDデータセット内のレコードの最大数が設定されます。 この設定では、すべての新しいデータ・セットのサンプル・サイズが制御され、変換操作によって生成されるサンプル・サイズも制御されることに注意してください(変換スクリプトを含むデータ・セットのリフレッシュ更新時など)。
デフォルトは、 |
runEnrichment
|
データ・エンリッチメント・モジュールを実行するかどうかを指定します。 デフォルトは、bdd.confファイルのENABLE_ENRICHMENTSプロパティで設定されます。
CLIの--runEnrichmentフラグを使用して、この設定をオーバーライドできます。 CLIの--excludePluginsフラグを使用して、いくつかのデータ・エンリッチメント・モジュールを除外することもできます。 |
defaultLanguage
|
作成されたデータ・セットのすべての属性の言語。 デフォルトは、bdd.confファイルのLANGUAGEプロパティで設定されます。 サポートされている言語コードは、「サポートされている言語」を参照してください。
|
edpDataDir
|
データ収集および変換操作が処理されるHDFSディレクトリのロケーションを指定します。 デフォルトのロケーションは/user/bdd/edp/dataディレクトリです。
|
datasetAccessType
|
Studio UIでどのStudioユーザーがデータ・セットにアクセスできるかを決定する、データ・セットのアクセス・タイプを設定します。 このプロパティは、大/小文字を区別しない次のいずれかの値を取ります:
|
notificationsServerUrl
|
通知サービスのURLを指定します。 この値は、BDDインストーラによって自動的に設定され、次の例のような値になります:
https://web14.example.com:7003/bdd/v1/api/workflows |
Dgraphゲートウェイ接続設定
| Dgraphゲートウェイ・プロパティ | 説明 |
|---|---|
endecaServerHost
|
Dgraphゲートウェイが稼働しているホストの名前。 デフォルト名は、bdd.conf構成ファイルで指定されます。
|
endecaServerPort
|
Dgraphゲートウェイがリスニングしているポート。 デフォルトは7003です。 |
endecaServerContextRoot
|
WebLogic Server内の管理対象サーバーで実行されるDgraphゲートウェイのコンテキスト・ルート。 値は次のように設定: /endeca-server
|
Kerberosの資格証明
bdd.confファイルのENABLE_KERBEROSプロパティがTRUEに設定されている場合、インストール時のKerberosサポートのためにDP CLIが有効になります。 bdd.confファイルには、Kerberosプリンシパルの名前を指定するパラメータや、Kerberos keytabファイルおよびKerberos構成ファイルへのパスもあります。 インストール・スクリプトにより、edp.propertiesファイルに次の表のプロパティが移入されます。
| Kerberosプロパティ | 説明 |
|---|---|
isKerberized
|
Kerberosサポートを有効にするかどうかを指定します。 デフォルト値は、bdd.confファイルのENABLE_KERBEROSプロパティで設定されます。
|
localKerberosPrincipal
|
Kerberosプリンシパルの名前。 デフォルト名は、bdd.confファイルのKERBEROS_PRINCIPALプロパティで設定されます。
|
localKerberosKeytabPath
|
WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.confファイルのKERBEROS_KEYTAB_PATHプロパティによって設定されます。
|
clusterKerberosPrincipal
|
Kerberosプリンシパルの名前。 デフォルト名は、bdd.confファイルのKERBEROS_PRINCIPALプロパティで設定されます。
|
clusterKerberosKeytabPath
|
WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.confファイルのKERBEROS_KEYTAB_PATHプロパティによって設定されます。
|
krb5ConfPath
|
krb5.conf構成ファイルのパス。 このファイルには、Kerberos V5ライブラリに必要な構成情報が含まれています。 これには、デフォルトのKerberosレルムと、既知のレルムのKerberosキー・ディストリビューション・センターのロケーションを説明する情報が含まれます。
デフォルト・パスは、 |
これらのパラメータの詳細は、「インストレーション・ガイド」を参照してください
Hadoopの接続設定
| Hadoopパラメータ | 説明 |
|---|---|
hiveServerHost
|
Hiveサーバーが稼働しているホストの名前。 デフォルト値は、BDDインストール時に設定されます。 |
hiveServerPort
|
Hiveサーバーがリスニングするポート。 デフォルト値は、BDDインストール時に設定されます。 |
clusterOltHome
|
Sparkのワーカー・ノード上のOLTディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/oltディレクトリです。
|
oltHome
|
clusterOltHomeとこのパラメータの両方が必須であり、両方とも同じ値に設定する必要があります。
|
hadoopClusterType
|
Hadoopのディストリビューションに応じたインストール・タイプ。 この値は、bdd.confファイルのINSTALL_TYPEプロパティで設定されます。
|
hadoopTrustStore
|
HDFS、YARN、HiveおよびKMS用の証明書が格納されているインストール・マシン上のディレクトリへのパス。 TLS/SSLが有効なクラスタに必要です。 デフォルト・パスは、bdd.confファイルのHADOOP_CERTIFICATES_PATHプロパティによって設定されます。
|
Sparkの環境設定
| Sparkプロパティ | 説明 |
|---|---|
sparkMasterUrl
|
SparkクラスタのマスターURLを指定します。 Spark-on-YARNモードでは、ResourceManagerアドレスは、このパラメータにyarn-clusterを指定するのみで、Hadoop構成から取得します。 デフォルト値は、BDDインストール時に設定されます。
|
sparkDynamicAllocation
|
データ処理が実行元リソースを動的にコンピュートするか、静的実行リソース構成を使用するかを示します:
デフォルトは、 |
sparkDriverMemory
|
各Sparkドライバ・プロセスに使用するメモリー量(JVMのメモリー文字列と同じ形式(512m、2g、10gなど)。 デフォルトは、bdd.confファイルのSPARK_DRIVER_MEMORYプロパティで設定されます。
|
sparkDriverCores
|
Sparkドライバで使用するCPUコアの最大数。 デフォルトは、bdd.confファイルのSPARK_DRIVER_CORESプロパティで設定されます。
|
sparkExecutorMemory
|
各Spark executorプロセスに使用するメモリーの量。JVMメモリー文字列(512m、2g、10gなど)と同じ形式です。 デフォルトは、bdd.confファイルのSPARK_EXECUTOR_MEMORYプロパティで設定されます。
この設定は、Cloudera ManagerのSpark 「ワーカー・スレッドのJavaヒープ・サイズ合計(バイト)」 ( |
sparkExecutorCores
|
各Sparkエグゼキュータで使用するCPUコアの最大数。 デフォルトは、bdd.confファイルのSPARK_EXECUTOR_CORESプロパティで設定されます。
|
sparkExecutors
|
起動するSparkエグゼキュータの合計数。 デフォルトは、bdd.confファイルのSPARK_EXECUTORSプロパティで設定されます。
|
yarnQueue
|
データ処理ジョブが発行されるYARNキュー。 デフォルト値は、bdd.confファイルのYARN_QUEUEプロパティで設定されます。
|
maxSplitSizeMB
|
Spark入力の最大パーティション・サイズ(MB)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。 このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドします。
パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。 デフォルトは
bdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
このプロパティが空の場合、DP CLIは起動時にエラーをログに記録し、デフォルト値の32MBを使用します。 |
Jarのロケーションの設定
| Jarプロパティ | 説明 |
|---|---|
sparkYarnJar
|
Spark-on-YARNで使用されるJARファイルへのパス。 デフォルト・パスは、bdd.confファイルのSPARK_ON_YARN_JARプロパティによって設定されます。 ただし、その他のJAR (edpLogging.jarなど)はインストーラによってパスに追加されます。
|
bddHadoopFatJar
|
クラスタ上のHadoop共有ライブラリ(bddHadoopFatJar.jarのファイル名)のロケーションへのパス。 このパスはinstaller.によって設定され、通常は$BDD_HOME/common/hadoop/libディレクトリになります。
data_processing_CLIスクリプトには、DP CLIクライアントのローカル・ファイル・システム上のHadoop共有ライブラリのロケーションを指定する |
edpJarDir
|
Sparkワーカーのデータ処理JARファイルがクラスタ上に配置されているディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/libディレクトリです。
|
extraJars
|
顧客が使用する追加のJARファイル(カスタムSerDe JARへのパスなど)へのパス。 デフォルト・パスは、bdd.confファイルのDP_ADDITIONAL_JARSプロパティによって設定されます。
|
Kryoシリアライズ設定
| Kryoプロパティ | 説明 |
|---|---|
kryoMode
|
直列化のために(true)を有効にするか、無効にする(false)かを指定します。 BDDではKryo直列化がサポートされていないため、このプロパティがfalseに設定されていることを確認してください。
|
kryoBufferMemSizeMB
|
Kryo内で許可する最大オブジェクト・サイズ(MB)。 このプロパティは、kryoModeプロパティと同様にBDDワークフローではサポートされていません。
|
JAVA_HOME設定
CLI構成プロパティの設定に加え、データ処理CLIを実行するときに呼び出される、特定のバージョンのJavaが含まれるディレクトリにJAVA_HOME環境変数が設定されていることを確認します。