プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

DP CLI構成

DP CLIには、デフォルトのプロパティを設定する構成ファイルedp.propertiesがあります。

デフォルトでは、edp.propertiesファイルは$BDD_HOME/dataprocessing/edp_cli/configディレクトリにあります。

プロパティのデフォルト値の一部は、bdd.confのインストール構成ファイルから移入されます。 インストール後、テキスト・エディタでedp.propertiesファイルを開くことで、CLI構成パラメータを変更できます。

データ処理のデフォルト

データ処理のデフォルトを設定するプロパティは、次のとおりです:
データ処理プロパティ 説明
maxRecordsForNewDataSet 新規データ・セットのサンプル・サイズ(つまり、ソースHive表からのサンプリングされたレコードの数)の最大レコード数を指定します。 実際には、これによりBDDデータセット内のレコードの最大数が設定されます。 この設定では、すべての新しいデータ・セットのサンプル・サイズが制御され、変換操作によって生成されるサンプル・サイズも制御されることに注意してください(変換スクリプトを含むデータ・セットのリフレッシュ更新時など)。

デフォルトは、bdd.confファイルのMAX_RECORDSプロパティで設定されます。 CLIの--maxRecordsフラグは、この設定をオーバーライドできます。

runEnrichment データ・エンリッチメント・モジュールを実行するかどうかを指定します。 デフォルトは、bdd.confファイルのENABLE_ENRICHMENTSプロパティで設定されます。

CLIの--runEnrichmentフラグを使用して、この設定をオーバーライドできます。 CLIの--excludePluginsフラグを使用して、いくつかのデータ・エンリッチメント・モジュールを除外することもできます。

defaultLanguage 作成されたデータ・セットのすべての属性の言語。 デフォルトは、bdd.confファイルのLANGUAGEプロパティで設定されます。 サポートされている言語コードは、「サポートされている言語」を参照してください。
edpDataDir データ収集および変換操作が処理されるHDFSディレクトリのロケーションを指定します。 デフォルトのロケーションは/user/bdd/edp/dataディレクトリです。
datasetAccessType Studio UIでどのStudioユーザーがデータ・セットにアクセスできるかを決定する、データ・セットのアクセス・タイプを設定します。 このプロパティは、大/小文字を区別しない次のいずれかの値を取ります:
  • publicとは、すべてのStudioユーザーがデータ・セットにアクセスできることを意味します。 これはデフォルトです。
  • privateとは、データセットにアクセスできるのは、指定されたStudioユーザーおよびグループのみであることを意味します。 ユーザーおよびグループは、DataSet Inventoryのデータ・セット・エントリの属性セットで指定されます。
notificationsServerUrl 通知サービスのURLを指定します。 この値は、BDDインストーラによって自動的に設定され、次の例のような値になります:
https://web14.example.com:7003/bdd/v1/api/workflows

Dgraphゲートウェイ接続設定

これらのプロパティを使用して、Dgraphノードを管理しているDgraphゲートウェイへのアクセスを制御します:
Dgraphゲートウェイ・プロパティ 説明
endecaServerHost Dgraphゲートウェイが稼働しているホストの名前。 デフォルト名は、bdd.conf構成ファイルで指定されます。
endecaServerPort Dgraphゲートウェイがリスニングしているポート。 デフォルトは7003です。
endecaServerContextRoot WebLogic Server内の管理対象サーバーで実行されるDgraphゲートウェイのコンテキスト・ルート。 値は次のように設定: /endeca-server

Kerberosの資格証明

bdd.confファイルのENABLE_KERBEROSプロパティがTRUEに設定されている場合、インストール時のKerberosサポートのためにDP CLIが有効になります。 bdd.confファイルには、Kerberosプリンシパルの名前を指定するパラメータや、Kerberos keytabファイルおよびKerberos構成ファイルへのパスもあります。 インストール・スクリプトにより、edp.propertiesファイルに次の表のプロパティが移入されます。

Kerberosプロパティ 説明
isKerberized Kerberosサポートを有効にするかどうかを指定します。 デフォルト値は、bdd.confファイルのENABLE_KERBEROSプロパティで設定されます。
localKerberosPrincipal Kerberosプリンシパルの名前。 デフォルト名は、bdd.confファイルのKERBEROS_PRINCIPALプロパティで設定されます。
localKerberosKeytabPath WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.confファイルのKERBEROS_KEYTAB_PATHプロパティによって設定されます。
clusterKerberosPrincipal Kerberosプリンシパルの名前。 デフォルト名は、bdd.confファイルのKERBEROS_PRINCIPALプロパティで設定されます。
clusterKerberosKeytabPath WebLogic管理サーバー上のKerberos keytabファイルへのパス。 デフォルト・パスは、bdd.confファイルのKERBEROS_KEYTAB_PATHプロパティによって設定されます。
krb5ConfPath krb5.conf構成ファイルのパス。 このファイルには、Kerberos V5ライブラリに必要な構成情報が含まれています。 これには、デフォルトのKerberosレルムと、既知のレルムのKerberosキー・ディストリビューション・センターのロケーションを説明する情報が含まれます。

デフォルト・パスは、bdd.confファイルのKRB5_CONF_PATHプロパティによって設定されます。 ただし、krb5.confファイルのローカルのカスタムのロケーションを指定できます。

これらのパラメータの詳細は、「インストレーション・ガイド」を参照してください

Hadoopの接続設定

Hadoop環境のプロセスおよびリソースへの接続を定義するパラメータは、次のとおりです:
Hadoopパラメータ 説明
hiveServerHost Hiveサーバーが稼働しているホストの名前。 デフォルト値は、BDDインストール時に設定されます。
hiveServerPort Hiveサーバーがリスニングするポート。 デフォルト値は、BDDインストール時に設定されます。
clusterOltHome Sparkのワーカー・ノード上のOLTディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/oltディレクトリです。
oltHome clusterOltHomeとこのパラメータの両方が必須であり、両方とも同じ値に設定する必要があります。
hadoopClusterType Hadoopのディストリビューションに応じたインストール・タイプ。 この値は、bdd.confファイルのINSTALL_TYPEプロパティで設定されます。
hadoopTrustStore HDFS、YARN、HiveおよびKMS用の証明書が格納されているインストール・マシン上のディレクトリへのパス。 TLS/SSLが有効なクラスタに必要です。 デフォルト・パスは、bdd.confファイルのHADOOP_CERTIFICATES_PATHプロパティによって設定されます。

Sparkの環境設定

次のパラメータで、Sparkのワーカーとのやり取りに関する設定を定義します:
Sparkプロパティ 説明
sparkMasterUrl SparkクラスタのマスターURLを指定します。 Spark-on-YARNモードでは、ResourceManagerアドレスは、このパラメータにyarn-clusterを指定するのみで、Hadoop構成から取得します。 デフォルト値は、BDDインストール時に設定されます。
sparkDynamicAllocation データ処理が実行元リソースを動的にコンピュートするか、静的実行リソース構成を使用するかを示します:
  • falseに設定されている場合、静的リソース・パラメータ(sparkDriverMemorysparkDriverCoressparkExecutorMemorysparkExecutorCoresおよびsparkExecutors)の値が必要であり、使用されます。
  • trueに設定されている場合は、エグゼキュータ・リソースの値が動的に計算されます。 これは、静的リソース・パラメータが不要であり、指定されていても無視されることを意味します。

デフォルトは、bdd.confファイルのSPARK_DYNAMIC_ALLOCATIONプロパティで設定されます。

sparkDriverMemory 各Sparkドライバ・プロセスに使用するメモリー量(JVMのメモリー文字列と同じ形式(512m、2g、10gなど)。 デフォルトは、bdd.confファイルのSPARK_DRIVER_MEMORYプロパティで設定されます。
sparkDriverCores Sparkドライバで使用するCPUコアの最大数。 デフォルトは、bdd.confファイルのSPARK_DRIVER_CORESプロパティで設定されます。
sparkExecutorMemory 各Spark executorプロセスに使用するメモリーの量。JVMメモリー文字列(512m、2g、10gなど)と同じ形式です。 デフォルトは、bdd.confファイルのSPARK_EXECUTOR_MEMORYプロパティで設定されます。

この設定は、Cloudera ManagerのSpark 「ワーカー・スレッドのJavaヒープ・サイズ合計(バイト)」 (executor_total_max_heapsize)プロパティ以下である必要があります。 Cloudera Managerでこのプロパティにアクセスするには、「クラスタ> Spark (スタンドアロン)」を選択してから「構成」タブをクリックします。 このプロパティは、「ワーカー・デフォルト・グループ」カテゴリにあります(クラシック表示を使用)。

sparkExecutorCores 各Sparkエグゼキュータで使用するCPUコアの最大数。 デフォルトは、bdd.confファイルのSPARK_EXECUTOR_CORESプロパティで設定されます。
sparkExecutors 起動するSparkエグゼキュータの合計数。 デフォルトは、bdd.confファイルのSPARK_EXECUTORSプロパティで設定されます。
yarnQueue データ処理ジョブが発行されるYARNキュー。 デフォルト値は、bdd.confファイルのYARN_QUEUEプロパティで設定されます。
maxSplitSizeMB Spark入力の最大パーティション・サイズ(MB)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。 このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドします。

パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。

デフォルトはbdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
  • Hadoopクラスタで処理能力が非常に多く、データ・セットのほとんどが(1GB前後で)小さい場合、この値を減らすことができます。
  • まれに、データ・エンリッチメントが有効になっている場合、パーティション内のエンリッチ済データ・セットが大きすぎて、そのYARNコンテナが処理できないことがあります。 これが発生する場合、各パーティションで必要なメモリー量を減らすために、この値を減らすことができます。

このプロパティが空の場合、DP CLIは起動時にエラーをログに記録し、デフォルト値の32MBを使用します。

Jarのロケーションの設定

次のプロパティは、ワークフローで使用されるjarのパスを指定します:
Jarプロパティ 説明
sparkYarnJar Spark-on-YARNで使用されるJARファイルへのパス。 デフォルト・パスは、bdd.confファイルのSPARK_ON_YARN_JARプロパティによって設定されます。 ただし、その他のJAR (edpLogging.jarなど)はインストーラによってパスに追加されます。
bddHadoopFatJar クラスタ上のHadoop共有ライブラリ(bddHadoopFatJar.jarのファイル名)のロケーションへのパス。 このパスはinstaller.によって設定され、通常は$BDD_HOME/common/hadoop/libディレクトリになります。

data_processing_CLIスクリプトには、DP CLIクライアントのローカル・ファイル・システム上のHadoop共有ライブラリのロケーションを指定するBDD_HADOOP_FATJARプロパティがあります。

edpJarDir Sparkワーカーのデータ処理JARファイルがクラスタ上に配置されているディレクトリへのパス。 デフォルトのロケーションは$BDD_HOME/common/edp/libディレクトリです。
extraJars 顧客が使用する追加のJARファイル(カスタムSerDe JARへのパスなど)へのパス。 デフォルト・パスは、bdd.confファイルのDP_ADDITIONAL_JARSプロパティによって設定されます。

Kryoシリアライズ設定

次のプロパティは、Kryo直列化の使用を定義します:
Kryoプロパティ 説明
kryoMode 直列化のために(true)を有効にするか、無効にする(false)かを指定します。 BDDではKryo直列化がサポートされていないため、このプロパティがfalseに設定されていることを確認してください。
kryoBufferMemSizeMB Kryo内で許可する最大オブジェクト・サイズ(MB)。 このプロパティは、kryoModeプロパティと同様にBDDワークフローではサポートされていません。

JAVA_HOME設定

CLI構成プロパティの設定に加え、データ処理CLIを実行するときに呼び出される、特定のバージョンのJavaが含まれるディレクトリにJAVA_HOME環境変数が設定されていることを確認します。