DP CLI構成プロパティは、スクリプト自体に含まれています。
CLI構成プロパティを設定するには、テキスト・エディタを使用してdata_processing_CLIスクリプトを開きます。これらのパラメータのデフォルト値の一部は、BDDインストーラに使用されていたbdd.conf構成ファイルから移入されたものです。
一般に、次の設定は、Studioのコントロール・パネルのデータ処理設定パネル内の設定と一致する必要があります。同一である必要があるパラメータは表内で言及されています。Studioのデータ処理設定パネルの詳細は、『Oracle Big Data Discovery管理者ガイド』を参照してください。
| データ処理のパラメータ | 意味 |
|---|---|
| maxRecordsProcessed | Hive表ごとに処理されるレコードの最大数(表からサンプリングされる数)。デフォルト値は1000000です。実際には、これにより、BDDデータ・セット内のレコードの最大数が設定されます。CLIの--maxRecordsフラグを使用してオーバーライドできます。 |
| runEnrichment | データ・エンリッチメント・モジュールを実行するかどうかを指定します。デフォルトはtrueです。CLIの--runEnrichmentフラグを使用してオーバーライドできます。 |
| defaultLanguage | 作成したデータ・セット内の属性すべての言語。デフォルトの言語はen (米国英語)です。サポートされている言語の国コードは、トピック「サポートされている言語」にリストされています。 |
| edpDataDir | データ収集操作および変換操作が処理されるHDFSディレクトリの場所を指定します。デフォルトの場所は、/user/bdd/edp/dataディレクトリです。Studioのbdd.edpDataDir設定と一致する必要があります。 |
| Endeca Serverのパラメータ | 意味 |
|---|---|
| endecaServerHost | Dgraph Gatewayが実行されているホストの名前。デフォルト名は、bdd.conf構成ファイルに指定されています。 |
| endecaServerPort | Dgraph Gatewayがリスニングしているポート。デフォルト値は7003です。 |
| endecaServerContextRoot | WebLogicサーバーで実行されている場合のDgraph Gatewayのコンテキスト・ルート。この値は/endeca-serverに設定する必要があります。 |
| Hadoopのパラメータ | 意味 |
|---|---|
| oozieHost | Oozieサーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。 |
| ooziePort | Oozieサーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.oozieServerPort設定と一致する必要があります。 |
| oozieJobsDir | Oozieデータ処理ジョブ・ファイルの作業ディレクトリへのパス。デフォルトの場所は、/user/bdd/edp/oozieJobsディレクトリです。Studioのbdd.edpOozieJobsDir設定と一致する必要があります。 |
| oozieWorkerJavaExecPath | データ処理プロセスを起動するために使用する必要があるOozieワーカー上のJava SDKのjava実行可能ファイルへのパス。Studioのbdd.javaPath設定と一致する必要があります。 |
| hdfsEdpLibPath | データ処理ライブラリ・ディレクトリへのHDFSパス。デフォルトの場所は、/user/bdd/edp/libディレクトリです。Studioのbdd.hdfsEdpLibPath設定と一致する必要があります。 |
| hiveServerHost | Hiveサーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。 |
| hiveServerPort | Hiveサーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hiveMetastoreServerPort設定と一致する必要があります。 |
| sparkMasterHost | Sparkマスター・サーバーが実行されているホストの名前。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.hadoopClusterHostname設定と一致する必要があります。 |
| sparkMasterPort | Sparkマスター・サーバーがリスニングしているポート。デフォルト値は、BDDインストーラによって設定されています。Studioのbdd.sparkServerPort設定と一致する必要があります。 |
| sparkExecutorMemory | JVMメモリー文字列と同じ書式でエグゼキュータ・プロセスごとに使用するメモリーの量(512m、2g、10gなど)。デフォルト値は48gです。 |
| edpJarDir | Sparkワーカーのデータ処理jarがクラスタ上に配置されているディレクトリへのパス。デフォルトの場所は、/opt/bdd/edp/libディレクトリです。Studioのbdd.edpJarDir設定と一致する必要があります。 |
| clusterOltHome | Sparkワーカー・ノード上のOLTディレクトリへのパス。デフォルトの場所は、/opt/bdd/edp/oltディレクトリです。Studioのbdd.clusterOlthome設定と一致する必要があります。 |
| sparkMaxNumberCores | Sparkジョブに使用するCPUコアの最大数。0 (デフォルト値)は、HDFS上のターゲット・データから使用されるブロックと同じ数のコアを使用する特別なケースです。 |
| kryoMode | シリアライズ用としてKryoを有効(true)にするか無効(false)にするかを指定します。デフォルト値はfalseであり、データ処理ワークフローに推奨される設定です。 |
| kryoBufferMemSizeMB | Kryo内で許可するオブジェクトのMB単位の最大サイズ(ライブラリでは少なくとも、シリアライズする単一の最大オブジェクトと同じ大きさのバッファを作成する必要があります)。デフォルト値は1024です。Kryo内でバッファ制限を超えましたという例外がスローされた場合は、この値を大きくしてください。バッファは各ワーカー上のコアごとに1つ存在します。 |
CLI構成プロパティを設定することに加え、JAVA_HOME環境変数が、実行時に呼び出されるJavaの特定のバージョンが含まれるディレクトリに設定されていることを確認してください。