DP CLIには、デフォルトのプロパティを設定する構成ファイルedp.properties
があります。
デフォルトでは、edp.properties
ファイルは$BDD_HOME/dataprocessing/edp_cli/config
ディレクトリにあります。
プロパティのデフォルト値の一部は、bdd.conf
のインストール構成ファイルから移入されます。 インストール後、テキスト・エディタでedp.properties
ファイルを開くことで、CLI構成パラメータを変更できます。
データ処理のデフォルト
データ処理プロパティ | 説明 |
---|---|
maxRecordsForNewDataSet
|
新規データ・セットのサンプル・サイズ(つまり、ソースHive表からのサンプリングされたレコードの数)の最大レコード数を指定します。 実際には、これによりBDDデータセット内のレコードの最大数が設定されます。 この設定では、すべての新しいデータ・セットのサンプル・サイズが制御され、変換操作によって生成されるサンプル・サイズも制御されることに注意してください(変換スクリプトを含むデータ・セットのリフレッシュ更新時など)。
デフォルトは、 |
runEnrichment
|
データ・エンリッチメント・モジュールを実行するかどうかを指定します。 デフォルトは、bdd.conf ファイルのENABLE_ENRICHMENTS プロパティで設定されます。
CLIの--runEnrichmentフラグを使用して、この設定をオーバーライドできます。 CLIの--excludePluginsフラグを使用して、いくつかのデータ・エンリッチメント・モジュールを除外することもできます。 |
defaultLanguage
|
作成されたデータ・セットのすべての属性の言語。 デフォルトは、bdd.conf ファイルのLANGUAGE プロパティで設定されます。 サポートされている言語コードは、「サポートされている言語」を参照してください。
|
edpDataDir
|
データ収集および変換操作が処理されるHDFSディレクトリのロケーションを指定します。 デフォルトのロケーションは/user/bdd/edp/data ディレクトリです。
|
datasetAccessType
|
Studio UIでどのStudioユーザーがデータ・セットにアクセスできるかを決定する、データ・セットのアクセス・タイプを設定します。 このプロパティは、大/小文字を区別しない次のいずれかの値を取ります:
|
notificationsServerUrl
|
通知サービスのURLを指定します。 この値は、BDDインストーラによって自動的に設定され、次の例のような値になります:
https://web14.example.com:7003/bdd/v1/api/workflows |
Dgraphゲートウェイ接続設定
Dgraphゲートウェイ・プロパティ | 説明 |
---|---|
endecaServerHost
|
Dgraphゲートウェイが稼働しているホストの名前。 デフォルト名は、bdd.conf 構成ファイルで指定されます。
|
endecaServerPort
|
Dgraphゲートウェイがリスニングしているポート。 デフォルトは7003です。 |
endecaServerContextRoot
|
WebLogic Server内の管理対象サーバーで実行されるDgraphゲートウェイのコンテキスト・ルート。 値は次のように設定: /endeca-server
|
Kerberosの資格証明
bdd.conf
ファイルのENABLE_KERBEROS
プロパティがTRUEに設定されている場合、インストール時のKerberosサポートのためにDP CLIが有効になります。 bdd.conf
ファイルには、Kerberosプリンシパルの名前を指定するパラメータや、Kerberos keytabファイルおよびKerberos構成ファイルへのパスもあります。 インストール・スクリプトにより、edp.properties
ファイルに次の表のプロパティが移入されます。
Kerberosプロパティ | 説明 |
---|---|
isKerberized
|
Kerberosサポートを有効にするかどうかを指定します。 デフォルト値は、bdd.conf ファイルのENABLE_KERBEROS プロパティで設定されます。
|
localKerberosPrincipal
|
Kerberosプリンシパルの名前。 デフォルト名は、bdd.conf ファイルのKERBEROS_PRINCIPAL プロパティで設定されます。
|
localKerberosKeytabPath
|
WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.conf ファイルのKERBEROS_KEYTAB_PATH プロパティによって設定されます。
|
clusterKerberosPrincipal
|
Kerberosプリンシパルの名前。 デフォルト名は、bdd.conf ファイルのKERBEROS_PRINCIPAL プロパティで設定されます。
|
clusterKerberosKeytabPath
|
WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.conf ファイルのKERBEROS_KEYTAB_PATH プロパティによって設定されます。
|
krb5ConfPath
|
krb5.conf 構成ファイルのパス。 このファイルには、Kerberos V5ライブラリに必要な構成情報が含まれています。 これには、デフォルトのKerberosレルムと、既知のレルムのKerberosキー・ディストリビューション・センターのロケーションを説明する情報が含まれます。
デフォルト・パスは、 |
これらのパラメータの詳細は、「インストレーション・ガイド」を参照してください
Hadoopの接続設定
Hadoopパラメータ | 説明 |
---|---|
hiveServerHost
|
Hiveサーバーが稼働しているホストの名前。 デフォルト値は、BDDインストール時に設定されます。 |
hiveServerPort
|
Hiveサーバーがリスニングするポート。 デフォルト値は、BDDインストール時に設定されます。 |
clusterOltHome
|
Sparkのワーカー・ノード上のOLTディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/olt ディレクトリです。
|
oltHome
|
clusterOltHome とこのパラメータの両方が必須であり、両方とも同じ値に設定する必要があります。
|
hadoopClusterType
|
Hadoopのディストリビューションに応じたインストール・タイプ。 この値は、bdd.conf ファイルのINSTALL_TYPE プロパティで設定されます。
|
hadoopTrustStore
|
HDFS、YARN、HiveおよびKMS用の証明書が格納されているインストール・マシン上のディレクトリへのパス。 TLS/SSLが有効なクラスタに必要です。 デフォルト・パスは、bdd.conf ファイルのHADOOP_CERTIFICATES_PATH プロパティによって設定されます。
|
Sparkの環境設定
Sparkプロパティ | 説明 |
---|---|
sparkMasterUrl
|
SparkクラスタのマスターURLを指定します。 Spark-on-YARNモードでは、ResourceManagerアドレスは、このパラメータにyarn-cluster を指定するのみで、Hadoop構成から取得します。 デフォルト値は、BDDインストール時に設定されます。
|
sparkDynamicAllocation
|
データ処理が実行元リソースを動的にコンピュートするか、静的実行リソース構成を使用するかを示します:
デフォルトは、 |
sparkDriverMemory
|
各Sparkドライバ・プロセスに使用するメモリー量(JVMのメモリー文字列と同じ形式(512m、2g、10gなど)。 デフォルトは、bdd.conf ファイルのSPARK_DRIVER_MEMORY プロパティで設定されます。
|
sparkDriverCores
|
Sparkドライバで使用するCPUコアの最大数。 デフォルトは、bdd.conf ファイルのSPARK_DRIVER_CORES プロパティで設定されます。
|
sparkExecutorMemory
|
各Spark executorプロセスに使用するメモリーの量。JVMメモリー文字列(512m、2g、10gなど)と同じ形式です。 デフォルトは、bdd.conf ファイルのSPARK_EXECUTOR_MEMORY プロパティで設定されます。
この設定は、Cloudera ManagerのSpark 「ワーカー・スレッドのJavaヒープ・サイズ合計(バイト)」 ( |
sparkExecutorCores
|
各Sparkエグゼキュータで使用するCPUコアの最大数。 デフォルトは、bdd.conf ファイルのSPARK_EXECUTOR_CORES プロパティで設定されます。
|
sparkExecutors
|
起動するSparkエグゼキュータの合計数。 デフォルトは、bdd.conf ファイルのSPARK_EXECUTORS プロパティで設定されます。
|
yarnQueue
|
データ処理ジョブが発行されるYARNキュー。 デフォルト値は、bdd.conf ファイルのYARN_QUEUE プロパティで設定されます。
|
maxSplitSizeMB
|
Spark入力の最大パーティション・サイズ(MB)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。 このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドします。
パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。 デフォルトは
bdd.conf ファイルのMAX_INPUT_SPLIT_SIZE プロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
このプロパティが空の場合、DP CLIは起動時にエラーをログに記録し、デフォルト値の32MBを使用します。 |
Jarのロケーションの設定
Jarプロパティ | 説明 |
---|---|
sparkYarnJar
|
Spark-on-YARNで使用されるJARファイルへのパス。 デフォルト・パスは、bdd.conf ファイルのSPARK_ON_YARN_JAR プロパティによって設定されます。 ただし、その他のJAR (edpLogging.jar など)はインストーラによってパスに追加されます。
|
bddHadoopFatJar
|
クラスタ上のHadoop共有ライブラリ(bddHadoopFatJar.jar のファイル名)のロケーションへのパス。 このパスはinstaller.によって設定され、通常は$BDD_HOME/common/hadoop/lib ディレクトリになります。
data_processing_CLIスクリプトには、DP CLIクライアントのローカル・ファイル・システム上のHadoop共有ライブラリのロケーションを指定する |
edpJarDir
|
Sparkワーカーのデータ処理JARファイルがクラスタ上に配置されているディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/lib ディレクトリです。
|
extraJars
|
顧客が使用する追加のJARファイル(カスタムSerDe JARへのパスなど)へのパス。 デフォルト・パスは、bdd.conf ファイルのDP_ADDITIONAL_JARS プロパティによって設定されます。
|
Kryoシリアライズ設定
Kryoプロパティ | 説明 |
---|---|
kryoMode
|
直列化のために(true )を有効にするか、無効にする(false )かを指定します。 BDDではKryo直列化がサポートされていないため、このプロパティがfalse に設定されていることを確認してください。
|
kryoBufferMemSizeMB
|
Kryo内で許可する最大オブジェクト・サイズ(MB)。 このプロパティは、kryoMode プロパティと同様にBDDワークフローではサポートされていません。
|
JAVA_HOME設定
CLI構成プロパティの設定に加え、データ処理CLIを実行するときに呼び出される、特定のバージョンのJavaが含まれるディレクトリにJAVA_HOME
環境変数が設定されていることを確認します。