DP CLI構成

DP CLI構成プロパティは、スクリプト自体に含まれています。

CLI構成プロパティを設定するには、テキスト・エディタを使用してdata_processing_CLIスクリプトを開きます。これらのパラメータのデフォルト値の一部は、BDDインストーラに使用されていたbdd.conf構成ファイルから移入されたものです。

一般に、次の設定は、Studioのコントロール・パネルのデータ処理設定パネル内の設定と一致する必要があります。同一である必要があるパラメータは表内で言及されています。Studioのデータ処理設定パネルの詳細は、『Oracle Big Data Discovery管理者ガイド』を参照してください。

データ処理のデフォルト値

データ処理の一般的なデフォルト値を設定するパラメータは、次のとおりです。
データ処理のパラメータ 意味
maxRecordsProcessed Hive表ごとに処理されるレコードの最大数(表からサンプリングされる数)。デフォルト値は1000000です。実際には、これにより、BDDデータ・セット内のレコードの最大数が設定されます。CLIの--maxRecordsフラグを使用してオーバーライドできます。
runEnrichment データ・エンリッチメント・モジュールを実行するかどうかを指定します。デフォルトはtrueです。CLIの--runEnrichmentフラグを使用してオーバーライドできます。
defaultLanguage 作成したデータ・セット内の属性すべての言語。デフォルトの言語はen (米国英語)です。サポートされている言語の国コードは、トピック「サポートされている言語」にリストされています。
edpDataDir データ収集操作および変換操作が処理されるHDFSディレクトリの場所を指定します。デフォルトの場所は、/user/bdd/edp/dataディレクトリです。Studioのbdd.edpDataDir設定と一致する必要があります。

Dgraph Gatewayの接続性

これらのパラメータは、Dgraphノードを管理するDgraph Gatewayに使用されます。
Endeca Serverのパラメータ 意味
endecaServerHost Dgraph Gatewayが実行されているホストの名前。デフォルト名は、bdd.conf構成ファイルに指定されています。
endecaServerPort Dgraph Gatewayがリスニングしているポート。デフォルト値は7003です。
endecaServerContextRoot WebLogicサーバーで実行されている場合のDgraph Gatewayのコンテキスト・ルート。この値は/endeca-serverに設定する必要があります。

Hadoopの接続性

Clouderaのプロセスおよびリソースへの接続を定義するパラメータは、次のとおりです。
Hadoopのパラメータ 意味
oozieHost Oozieサーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。
ooziePort Oozieサーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.oozieServerPort設定と一致する必要があります。
oozieJobsDir Oozieデータ処理ジョブ・ファイルの作業ディレクトリへのパス。デフォルトの場所は、/user/bdd/edp/oozieJobsディレクトリです。Studioのbdd.edpOozieJobsDir設定と一致する必要があります。
oozieWorkerJavaExecPath データ処理プロセスを起動するために使用する必要があるOozieワーカー上のJava SDKのjava実行可能ファイルへのパス。Studioのbdd.javaPath設定と一致する必要があります。
hdfsEdpLibPath データ処理ライブラリ・ディレクトリへのHDFSパス。デフォルトの場所は、/user/bdd/edp/libディレクトリです。Studioのbdd.hdfsEdpLibPath設定と一致する必要があります。
hiveServerHost Hiveサーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。
hiveServerPort Hiveサーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hiveMetastoreServerPort設定と一致する必要があります。
sparkMasterHost Sparkマスター・サーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。
sparkMasterPort Sparkマスター・サーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.sparkServerPort設定と一致する必要があります。
sparkExecutorMemory JVMメモリー文字列と同じ書式でエグゼキュータ・プロセスごとに使用するメモリーの量(512m、2g、10gなど)。デフォルト値は48gです。
edpJarDir Sparkワーカーのデータ処理jarがクラスタ上に配置されているディレクトリへのパス。デフォルトの場所は、/opt/bdd/edp/libディレクトリです。Studioのbdd.edpJarDir設定と一致する必要があります。
clusterOltHome Sparkワーカー・ノード上のOLTディレクトリへのパス。デフォルトの場所は、/opt/bdd/edp/oltディレクトリです。Studioのbdd.clusterOlthome設定と一致する必要があります。
sparkMaxNumberCores Sparkジョブに使用するCPUコアの最大数。0 (デフォルト値)は、HDFS上のターゲット・データから使用されるブロックと同じ数のコアを使用する特別なケースです。
kryoMode シリアライズ用としてKryoを有効(true)にするか無効(false)にするかを指定します。デフォルト値はfalseであり、データ処理ワークフローに推奨される設定です。
kryoBufferMemSizeMB Kryo内で許可するオブジェクトのMB単位の最大サイズ(ライブラリでは少なくとも、シリアライズする単一の最大オブジェクトと同じ大きさのバッファを作成する必要があります)。デフォルト値は1024です。Kryo内でバッファ制限を超えましたという例外がスローされた場合は、この値を大きくしてください。バッファは各ワーカー上のコアごとに1つ存在します。

JAVA_HOME設定

CLI構成プロパティを設定することに加え、JAVA_HOME環境変数が、実行時に呼び出されるJavaの特定のバージョンが含まれるディレクトリに設定されていることを確認してください。