データ処理タスクを実行するには、後述の表にリストされている設定を正しく設定する必要があります。
これらの設定のデフォルト値の多くは、インストール・プロセス中にbdd.confで指定された値に基づいて移入されます。
一般に、後述の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致する必要があります。同じである必要があるパラメータは、後述の表にそのようなものとして記述されています。データ処理CLI構成プロパティの詳細は、データ処理ガイドを参照してください。
| Hadoop設定 | 説明 |
|---|---|
| bdd.clusterOltHome | BDDクラスタ内のOLTホーム・ディレクトリを指定します。BDDインストーラはこの値を検出し、設定を移入します。
データ処理CLIのedpJarDir設定と一致する必要があります。 |
| bdd.databaseName | Studioデータ・セットのソース・データを格納するHiveデータベースの名前を指定します。 |
| bdd.edpDataDir | データ処理操作(収集および変換)を実行するディレクトリを指定します。デフォルト値は/user/bddです。
データ処理CLIのedpDataDir設定と一致する必要があります。 |
| bdd.edpJarDir | 各ワーカー・ノード上でedp_cluster_*.zipファイルのコンテンツを含むディレクトリを指定します。
データ処理CLIのedpJarDir設定と一致する必要があります。 |
| bdd.edpOozieJobsDir | Oozieジョブ・ファイルを格納するHDFSディレクトリを指定します。BDDインストーラはこの値を検出し、設定を移入します。
データ処理CLIのoozieJobsDir設定と一致する必要があります。 |
| bdd.enableEnrichments | データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定は、言語検出、語の抽出、アドレスのジオコード化、IPのジオコード化、およびGeotaggerのリバースのモジュールを制御します。値がtrueの場合はすべてのデータ・エンリッチメント・モジュールを実行し、falseの場合は実行しません。個々のエンリッチメントを有効にすることはできません。デフォルト値はtrue。 |
| bdd.hadoopClusterHostname | Hadoopサービス(NameNode、Oozie、JobTracker、Sparkなど)がインストールされるホスト名を指定します。
データ処理CLIのoozieHost、hiveServerHost、sparkMasterHost設定と一致する必要があります。 |
| bdd.hdfsEdpLibPath | データ処理の.jarファイルを格納するHDFSディレクトリを指定します。BDDインストーラはこの値を検出し、設定を移入します。
データ処理CLIのhdfsEdpLibPath設定と一致する必要があります。 |
| bdd.hiveJdbcUrlPort | Hiveサーバー用JDBCクライアントのポートを指定します。Hive JDBCドライバによって、書き込んだJavaプログラムから、またはBusiness Intelligence、あるいはJDBCを使用してデータベース製品と通信する類似のアプリケーションから、Hiveにアクセスできます。 |
| bdd.hiveMetastoreServerPort | Metastoreサーバーのポートを指定します。
データ処理CLIのhiveServerPort設定と一致する必要があります。 |
| bdd.hueHttpPort | Hueプロセスのポート番号を指定します。 |
| bdd.javaPath | クラスタ内の各ホストに対して、JavaインストールでのJavaバイナリへのパスを指定します。Javaは、各ホスト上の同じ場所にインストールする必要があります。Javaバイナリのデフォルト値は/usr/java/jdk1.7.0_67/bin/javaです。
データ処理CLIのoozieWorkerJavaExecPath設定と一致する必要があります。 |
| bdd.jobTrackerPort | JobTrackerのポートを指定します。 |
| bdd.kryoBufferSize | Kryoに割り当てられるバッファ領域の量を指定します。Kryo関連の例外が発生した場合、この値を増やす必要がある場合があります。デフォルト値は1024MBです。 |
| bdd.kryoMode | Kryoモードを有効化または無効化するブール値を指定します。Kyroモードでは、Sparkワーカー・ノード間でデータをシリアライズおよび移動する別の方法が提供されます。値がtrueの場合はKyroモードを有効化し、falseの場合はJavaシリアライゼーションを使用します。Kryoモードは、一般にデータ処理では高速ですが、予想しにくい状況では例外が発生する可能性があります。デフォルト値はfalseです。 |
| bdd.language | ISO-639言語コード(EN、DE、FRなど)、またはデータの処理と索引付けの際にOracle Language Technologyライブラリを呼び出すかどうかを制御する値unknownのいずれかを指定します。言語コードには多くの処理時間が必要ですが、指定した言語のOLTライブラリを使用することによって、処理および索引付けでより適切な結果を得ることができます。unknownを指定した場合、処理時間は高速になりますが、処理および索引付けの結果は一般的なもので、OLTは呼び出されません。デフォルト値はunknownです。 |
| bdd.maxRecordsToProcess | カタログ内のデータ・セットのサンプル・サイズにするために処理されるレコードの最大数を指定します。これは、Studioを使用してアップロードされるすべてのExcelおよびCSVファイルのサンプル・サイズを制御するグローバル設定です。
たとえば、5,000,000行あるファイルをアップロードする場合、サンプル・レコードの合計数を1,000,000に制限できます。 デフォルト値は1,000,000です。(この値は概算です。データ処理後に、実際のサンプル・サイズは、この値より少し大きいか小さい場合があります。) |
| bdd.nameNodePort | HDFS NameNodeのポート番号を指定します。BDDインストーラはこの値を検出し、設定を移入します。HDFS NameNodeホストがbdd.hadoopClusterHostnameと同じではない場合、この設定にhost:portの値を指定します。 |
| bdd.oozieServerPort | Oozieサーバーのポートを指定します。BDDインストーラはこの値を検出し、設定を移入します。Oozieホストがbdd.hadoopClusterHostnameと同じではない場合、この設定にhost:portの値を指定します。
データ処理CLIのooziePort設定と一致する必要があります。 |
| bdd.sandbox | ユーザーがBig Data Discoveryからデータをエクスポートする際に作成されるavroファイルを格納するHDFSディレクトリを指定します。デフォルト値は/user/bddです。 |
| bdd.sparkExecutorMemorySetting | Sparkエグゼキュータに割り当てられるメモリーの量を指定します。デフォルト値は10GBです。 |
| bdd.sparkServerPort | Sparkサーバーのポートを指定します。BDDインストーラはこの値を検出し、設定を移入します。Sparkサーバーがbdd.hadoopClusterHostnameと同じではない場合、この設定にhost:portの値を指定します。
データ処理CLIのsparkMasterPort設定と一致する必要があります。 |