Big Data Discoveryの構成

インストール・ソース・ディレクトリを作成したら、/BDD_deployer/installerディレクトリにあるbdd.confファイルを更新してデプロイメントを構成する必要があります。

bdd.confファイルではBDDクラスタの構成が定義され、オーケストレーション・スクリプトの実行に必要なパラメータが指定されます。このファイルの更新が、インストールおよびデプロイメント・プロセスで最も重要な手順です。ファイルを変更しない場合、または間違って変更した場合、オーケストレーション・スクリプトが失敗したり、クラスタが意図とは異なって構成される可能性があります。

構成ファイルは、任意のテキスト・エディタを使用して編集できます。閉じる前に、必ず変更を保存してください。

オーケストレーション・スクリプトでは、構成ファイルを実行時に検証し、ファイルに無効な値が含まれているとスクリプトが失敗します。これを回避するには、ファイルの更新時に次の点に注意してください。
  • Oracleサポートによってのみ使用されるDGRAPH_ADDITIONAL_ARG以外のすべてのプロパティに値を指定する必要があります。
  • 一部のプロパティで受け付けられる値は大/小文字が区別され、このドキュメントに示されたとおりに入力する必要があります。
  • 完全修飾ホスト名を指定する必要があります。
  • パスに含まれるシンボリックリンクは、すべてのノードで同じである必要があります。異なるものがある場合、または存在しない場合、インストールは失敗します。
  • 各ポートの設定は一意の値である必要があります。同じポート番号は複数回使用できません。
  • 構成ファイルで定義される一部のディレクトリには場所の要件があります。これらはこのドキュメントで示します。

以降の項では、構成ファイル内のプロパティとその要件または制限について説明します。構成ファイル自体でもこの情報の一部が示されます。プロパティを変更する前に必ず以降の項を注意して読んでください。

グローバルな設定

bdd.confの最初のセクションでは、すべてのコンポーネント、インストールおよびデプロイメント・プロセス自体に関連するグローバルな設定が構成されます。

この表では、bdd.conf内のグローバルな設定について説明します。
構成プロパティ 説明
INSTALL_TYPE インストール先のハードウェアに合せてインストール・タイプを設定します。Oracle Big Data Applianceでインストールする場合、BDAを使用します。汎用目的のハードウェアの場合、GENERICを使用します。

デフォルト値はGENERICです。

このドキュメントでは、BDAインストールについて取り上げていないことに注意してください。BDAにインストールする場合、『Oracle Big Data Applianceオーナーズ・ガイド』を参照してください。

CLUSTER_MODE 単一マシンにデプロイするか、クラスタにデプロイするかを決定します。クラスタにデプロイする場合、TRUEを使用します。これがデフォルト値です。

単一マシンにデプロイする場合、FALSEを使用します。単一マシンにデプロイする場合、MANAGED_SERVERSDGRAPH_SERVERSおよびDETECTOR_SERVERプロパティが${ADMIN_SERVER}に設定されていることを確認する必要もあります。設定されていない場合、オーケストレーション・スクリプトは失敗します。

このプロパティは大文字の値のみを受け付けることに注意してください。

FORCE オーケストレーション・スクリプトが実行時に前のインストールの残余のファイルおよびディレクトリを削除するかどうかを決定します。

TRUEに設定した場合、オーケストレーション・スクリプトは以前のインストールをORACLE_HOMEディレクトリから削除します。失敗後にスクリプトを再実行する場合、この値を使用します。

FALSEに設定した場合、オーケストレーション・スクリプトは以前のインストールを削除しません。存在する場合、スクリプトは失敗します。これがデフォルト値です。

このプロパティは大文字の値のみを受け付けることに注意してください。

ORACLE_HOME クラスタ内のすべてのサーバーでBDDがインストールされる、BDDルート・ディレクトリへのパス。このディレクトリはオーケストレーション・スクリプトによって作成されるため、既存のものにはできません。
重要: BDDのインストール先のすべてのノードでこのディレクトリを作成できることを確認する必要があります。

デフォルト値は、/localdisk/Oracle/Middlewareです。

ORACLE_INV_PTR Oracleインベントリ・ポインタ・ファイルのパス。このファイルはORACLE_HOMEディレクトリに配置できません。デフォルト値は、/localdisk/Oracle/oraInst.locです。

他のOracleソフトウェア製品がマシンにインストールされている場合、このファイルはすでに存在します。そのファイルを指すようこの値を更新します。

JAVA_HOME JDKインストール・ディレクトリのパス。これは、すべてのBDDサーバーで同じである必要があります。このプロパティは、JAVA_PATHプロパティと同じではないことに注意してください。デフォルト値は、/usr/java/jdk1.7.0_67です。
INSTALLER_PATH 管理サーバー上のインストール・ソース・ディレクトリのパス。これは、BDDソフトウェア・モジュールをダウンロードした場所です。デフォルト値は、/localdisk/BDD_deployer/packagesです。
BDD_HOME オーケストレーション・スクリプトがすべてのBDDサーバーに作成する、BDDインストール・ディレクトリのパス。このディレクトリは、ORACLE_HOME内にある必要があります。デフォルト値は、${ORACLE_HOME}/BDD1.0です。
ENABLE_AUTOSTART サーバーが再起動されると、BDDクラスタが自動的に再起動するかどうかを決定します。
  • TRUE: WebLogic (StudioおよびDgraph Gatewayを含む)、DgraphおよびHDFSエージェントは、ホスト・サーバーが再起動されると自動的に再起動します。これがデフォルト値です。
  • FALSE: WebLogic、DgraphおよびHDFSエージェントは手動で再起動される必要があります。

このプロパティは大文字の値のみを受け付けることに注意してください。

CDHの設定

bdd.confの2番目のセクションには、Cloudera Managerに関連するプロパティが含まれています。オーケストレーション・スクリプトでは指定された値を使用して、ホスト・サーバーのURIや名前などの他のCDHコンポーネントに関する情報をCloudera Managerに問い合せます。

この表では、bdd.confファイル内のCDHの設定について説明します。
構成プロパティ 説明および可能な設定
CM_HOST Cloudera Managerを実行するサーバーのホスト名。デフォルト値は、${ADMIN_SERVER}です。
CM_PORT Cloudera Managerを実行するサーバーによって使用されるポート番号。デフォルト値は、7180です。
CM_CLUSTER_NAME Cloudera ManagerにリストされるCDHクラスタの名前。クラスタ名内の空白は%20に置き換えます。デフォルト値は、Cluster%201です。

WebLogicの設定

bdd.confの3番目のセクションでは、管理サーバーおよびすべての管理対象サーバーを含む、WebLogic Serverを構成します。StudioやDgraph Gatewayは構成されません。

この表では、bdd.confファイル内のWebLogic Server設定について説明します。
構成プロパティ 説明および可能な設定
WLS_START_MODE WebLogic Serverが起動するモードを定義します。

prodに設定された場合、WebLogic Serverは本番モードで起動します。起動時、ユーザー名とパスワードが必要です。これがデフォルト値です。

devに設定された場合、開発モードで起動し、ユーザー名とパスワードは必要ありません。オーケストレーション・スクリプトは実行時ユーザー名とパスワードを要求しますが、これらはWebLogic Serverの起動時は必要ありません。

このプロパティは小文字の値のみを受け付けることに注意してください。

ADMIN_SERVER WebLogic管理サーバーになるマシンの完全修飾ホスト名。これは現在作業しているマシンです。

このプロパティにはデフォルト値はないため、指定する必要があります。設定されていない場合、インストール・スクリプトは失敗するため、必ずこのプロパティに値を指定してください。

MANAGED_SERVERS WebLogic管理対象サーバー(WebLogic、StudioおよびDgraph Gatewayを実行するサーバー)の完全修飾ホスト名のカンマ区切りのリスト。このリストには管理サーバーのホスト名が含まれる必要があり、重複する値を含めることはできません。

単一マシンでのインストールの場合、このプロパティは${ADMIN_SERVER}に設定する必要があります。そうしないと、オーケストレーション・スクリプトは失敗します。

WEBLOGIC_DOMAIN_NAME StudioおよびDgraph Gatewayを実行するWebLogicドメインの名前。デフォルト値は、bdd_domainです。
ADMIN_SERVER_PORT 管理サーバーによって使用されるポート番号。この番号は一意である必要があります。デフォルト値は、7001です。
MANAGED_SERVER_PORT 管理対象サーバーによって使用されるポート番号。この番号は一意である必要があります。デフォルト値は、7003です。

単一サーバーでのインストールの場合でもこのプロパティは必要です。

WLS_CPU_CORES 各管理対象サーバーに必要なCPUコアの最小数。これは、ノードで使用可能なCPUコアの数以下である必要があります。ノードのコア数がわからない場合は、そのノード・ファイルを確認します。デフォルト値は、4です。

オーケストレーション・スクリプトで実行時にこの値が確認されます。入力した値がノードで使用可能なコアの合計数より大きい場合、スクリプトは警告を示しますが、終了しません。

WLS_RAM_SIZE 各管理対象サーバーで使用可能なRAMの最小量(KB)。これは、ノードで使用可能なRAMの合計量以下である必要があります。ノードのRAMの量がわからない場合は、そのノード・ファイルを確認します。デフォルト値は、2048000です。

オーケストレーション・スクリプトで実行時にこの値が確認されます。入力した値がノードで使用可能なRAMの合計量より大きい場合、スクリプトは警告を示しますが、終了しません。

WLS_SECURE_MODE Studioの外向きのポートにSSLを有効および無効にします。

これは、TRUEまたはFALSEに設定できます。TRUEに設定した場合、管理サーバーおよび管理対象サーバーのStudioインスタンスはそれぞれ、ADMIN_SERVER_SECURE_PORTおよびMANAGED_SERVER_SECURE_PORTでリクエストをリスニングします。

デフォルト値は、TRUEです。このプロパティは他のBDDコンポーネントにはSSLを有効にしません。

ADMIN_SERVER_SECURE_PORT WLS_SECURE_MODETRUEに設定されている場合にStudioがリスニングする管理サーバー上のセキュアなポート。この番号は一意である必要があります。デフォルト値は、7002です。

SSLが有効な場合でも、StudioはセキュアでないADMIN_SERVER_PORTでDgraph Gatewayからのリクエストをリスニングします。

MANAGED_SERVER_SECURE_PORT WLS_SECURE_MODETRUEに設定されている場合にStudioがリスニングする管理対象サーバー上のセキュアなポート。この番号は一意である必要があります。デフォルト値は、7004です。

SSLが有効な場合でも、StudioはセキュアでないMANAGED_SERVER_PORTでDgraph Gatewayからのリクエストをリスニングします。

Dgraph Gatewayの設定

bdd.confの4番目のセクションではDgraph Gatewayを構成します。

この表では、bdd.confファイル内のDgraph Gatewayのプロパティについて説明します。
構成プロパティ 説明および可能な設定
ENDECA_SERVER_LOG_LEVEL Dgraph Gatewayによって使用されるログ・レベル:
  • DEBUG
  • INFO
  • WARN
  • ERROR
  • FATAL

デフォルト値は、ERRORです。

Dgraph Gatewayログ・レベルの詳細は、『Oracle Big Data Discovery管理者ガイド』に記載されています。

Studioの設定

bdd.confの5番目のセクションではStudioを構成します。

この表では、bdd.confファイル内のStudioのプロパティについて説明します。
構成プロパティ 説明および可能な設定
SERVER_TIMEOUT データ取込みWebサービス以外のすべてのDgraph Gateway Webサービスに送信されたリクエストへのレスポンス時に使用されるタイムアウト値(ミリ秒)。値0は、タイムアウトしないことを意味します。デフォルト値は、300000です。
SERVER_INGEST_TIMEOUT データ取込みWebサービスに送信されたリクエストへのレスポンス時に使用されるタイムアウト値(ミリ秒)。値0は、タイムアウトしないことを意味します。デフォルト値は、1680000です。
SERVER_HEALTHCHECK_TIMEOUT 接続の初期化時のデータ・ソースの可用性の確認時に使用されるタイムアウト値(ミリ秒)。値0は、タイムアウトしないことを意味します。デフォルト値は、10000です。
STUDIO_JDBC_URL Studioデータベースのタイプ、場所、その他のプロパティを定義するデータベースのJDBC URL。このプロパティには3つのテンプレートがあります。
  • 1つ目のテンプレートはMySQL 5.5.3(以上)データベース用でcom.mysql.jdbc.Driverドライバが使用されます。このテンプレートは、デフォルトで非コメント・アウトされています。
  • 2つ目はOracle 11gまたは12cデータベース用で、oracle.jdbc.OracleDriverドライバが使用されます。
  • 3つ目はHypersonicデータベース用で、org.hsqldb.jdbcDriverドライバが使用されます。Hypersonicは本番環境ではサポートされないため、デモ環境へのデプロイの場合にのみこのインスタンスを使用します。

使用できるテンプレートは1つのみです。残りの2つは、ハッシュ記号(#)でコメント・アウトする必要があります。

このプロパティを設定するには、使用するデータベースのタイプに応じたテンプレートを非コメント・アウトし、必要に応じてURLのパラメータ(ホスト名、ポートなど)を更新します。他の2つのテンプレートは必ずコメント・アウトしてください。

BDDでは、現在データベースの移行がサポートされないことに注意してください。デプロイメント後、別のデータベースに変更する方法は、データベース自体を再構成してBDDを再インストールすることのみです。

DgraphおよびHDFSエージェントの設定

bdd.confの6番目のセクションではDgraphおよびHDFSエージェントを構成します。

この表では、bdd.conf内のDgraphおよびHDFSエージェントのプロパティについて説明します。
構成プロパティ 説明および可能な設定
DGRAPH_SERVERS クラスタ内のすべてのDgraphノードの完全修飾ホスト名のカンマ区切りのリスト。オーケストレーション・スクリプトでこれらのノードにDgraphをインストールおよびデプロイします。

このリストには重複する値を含めることはできません。また、DgraphとSparkの併置は推奨されないため、このリストにはSparkノードのホスト名を含めないでください。

単一マシンでのインストールの場合、このプロパティは${ADMIN_SERVER}に設定する必要があります。そうしないと、オーケストレーション・スクリプトは失敗します。

DGRAPH_CPU_CORES DgraphおよびHDFSエージェントをホストするノードに必要なCPUコアの最小数。この値は、ノードで使用可能なコアの数以下である必要があります。ノードのコア数がわからない場合は、そのノード・ファイルを確認します。デフォルト値は、2です。

オーケストレーション・スクリプトで実行時にこの値が確認されます。入力した値がDgraphノードで使用可能なコアの合計数より大きい場合、スクリプトは警告を示しますが、終了しません。

DGRAPH_RAM_SIZE DgraphおよびHDFSエージェントをホストするノードに必要なRAMの最小量(KB)。これは、ノードで使用可能なRAMの合計量以下である必要があります。ノードのRAMの量がわからない場合は、そのノード・ファイルを確認します。デフォルト値は、2048000です。

オーケストレーション・スクリプトで実行時にこの値が確認されます。入力した値がDgraphノードで使用可能なRAMの合計量より大きい場合、スクリプトは警告を示しますが、終了しません。

DGRAPH_OUT_FILE Dgraphのstdout/stderrファイルのパス。デフォルト値は、${BDD_HOME}/logs/dgraph.outです。
DGRAPH_INDEX_DIR Dgraph索引(DGRAPH_INDEX_DIRによって定義)が配置される共有NFS上のディレクトリのパス。このディレクトリがまだない場合は、オーケストレーション・スクリプトによって作成されます。
デフォルト値は、/share/bdd_dgraph_indexです。既存の索引でインストールする場合、索引が配置されているディレクトリの名前にこのプロパティの値を必ず変更してください。
重要: DGRAPH_INDEX_NAMEbaseに設定されている場合、オーケストレーション・スクリプトはこの場所のファイルを削除し、空の索引で置き換えます。
DGRAPH_INDEX_NAME Dgraph索引の名前。Dgraph索引はDGRAPH_INDEX_DIRで定義されたディレクトリに配置されます。デフォルト値は、baseです。
重要: この値を変更しない場合、オーケストレーション・スクリプトによってDGRAPH_INDEX_DIR内のすべてのファイルが削除され、baseという名前の空の索引が作成されます。この値は、空の索引でインストールする場合にのみ使用します。

既存の索引でインストールする場合、DGRAPH_INDEX_DIRで定義したディレクトリに索引を移動し、このプロパティの値を使用する索引の名前に変更します。索引がDGRAPH_INDEX_DIRの場所に存在しない場合、オーケストレーション・スクリプトは失敗します。

索引の名前に_indexesを含めないでください。たとえば、product_indexという名前の索引がある場合、productのみ指定します。

DGRAPH_THREADS Dgraphの起動に使用されるスレッドの数。このプロパティにはデフォルト値はないため、指定する必要があります。次が推奨されます。
  • Dgraphのみが稼働するマシンの場合、スレッドの数はマシンのCPUコアの数と等しくします。
  • Dgraphおよび他のBDDコンポーネントが稼働するマシンの場合、スレッドの数はCPUコアの数から2を引いた値です。たとえば、4コアのマシンは2つのスレッドを持つ必要があります。

使用する数は必ずライセンス契約に従います。

DGRAPH_CACHE Dgraphキャッシュのサイズ(MB)。このプロパティにはデフォルト値はないため、指定する必要があります。

キャッシュに割り当てるMB数を指定するのみです。たとえば、値50はキャッシュ・サイズを50MBに設定します。

パフォーマンスを向上させるには、ノードの使用可能なRAMの最低でも50%をDgraphのキャッシュに割り当てることをお薦めします。使用可能なメモリーが十分でないために問合せが取り消されていることが検出された場合、この量を増やします。

DGRAPH_WS_PORT Dgraph Webサービスが実行されるポート番号。この番号は一意である必要があります。デフォルト値は、7010です。
DGRAPH_BULKLOAD_PORT Dgraphが一括ロード取込みリクエストをリスニングするポート。この番号は一意である必要があります。デフォルト値は、7019です。
COORDINATOR_INDEX ZooKeeperアンサンブル内のDgraphクラスタの索引。ZooKeeperはこの値を使用してクラスタを識別します。デフォルト値は、cluster1です。

このプロパティはDgraph索引とは関係ないことに注意してください。

DGRAPH_ADDITIONAL_ARG
注意: このプロパティは、Oracleサポートが使用するためのものです。BDDのインストール時、このプロパティには値を指定しないでください。
Dgraphの起動に使用される1つ以上のフラグを定義します。Dgraphのフラグの詳細は、『Oracle Big Data Discovery管理者ガイド』に記載されています。
AGENT_PORT HDFSエージェントがHTTPリクエストをリスニングするポート。この番号は一意である必要があります。デフォルト値は、7102です。
AGENT_EXPORT_PORT HDFSエージェントがDgraphからのリクエストをリスニングするポート。この番号は一意である必要があります。デフォルト値は、7101です。
AGENT_OUT_FILE HDFSエージェントのstdout/stderrファイルのパス。デフォルト値は、${BDD_HOME}/logs/dgraphHDFSAgent.outです。

データ処理の設定

bdd.confの7番目のセクションではデータ処理およびHive表ディテクタを構成します。

この表では、bdd.conf内のデータ処理のプロパティについて説明します。
構成プロパティ 説明および可能な設定
HDFS_DP_USER_DIR ユーザーがBDDからデータをエクスポートすると作成されるAvroファイルを格納するHDFS /userディレクトリ内の場所。このディレクトリがまだない場合は、オーケストレーション・スクリプトによって作成されます。このディレクトリの名前に空白を含めることはできません。

デフォルト値は、bddです。

ENABLE_HIVE_TABLE_DETECTOR Hive表ディテクタを有効および無効にします。TRUEに設定した場合、Hive表ディテクタは、DETECTOR_SERVERによって定義されるサーバーで自動的に実行されます。FALSEに設定した場合、Hive表ディテクタは作成されません。デフォルト値は、FALSEです。
DETECTOR_SERVER Hive表ディテクタが実行されるサーバーの完全修飾ホスト名。これは、WebLogic管理対象サーバーの1つである必要があります。デフォルト値は、${ADMIN_SERVER}です。

単一マシンでのインストールの場合、このプロパティは${ADMIN_SERVER}に設定する必要があります。そうしないと、オーケストレーション・スクリプトは失敗します。

DETECTOR_HIVE_DATABASE Hive表ディテクタでモニターするHiveデータベースの名前。

デフォルト値は、defaultです。これは、StudioおよびCLIで使用されるHIVE_DATABASE_NAMEのデフォルト値と同じです。これらのプロパティに異なるデータベースを使用することはできますが、初回インストールのもので始めることをお薦めします。

DETECTOR_MAXIMUM_WAIT_TIME ジョブの更新間でHive表ディテクタが待機する最大時間(秒)。デフォルト値は、1800です。
DETECTOR_SCHEDULE Hive表ディテクタの実行頻度を指定するCron形式のスケジュール。これは引用符で囲む必要があります。デフォルト値は"0 0 * * *"で、Hive表ディテクタが毎月、毎日午前0時に実行されることを示します。

CLIの設定

bdd.confの最後のセクションではCLIを構成します。これらのプロパティは、Studioとデータ処理の両方で使用されます。

この表では、bdd.conf内のCLIのプロパティについて説明します。
構成プロパティ 説明および可能な設定
ENABLE_ENRICHMENTS データ・エンリッチメントが、データ処理のサンプリング・フェーズで実行されるかどうかを決定します。この設定では、言語検出、語の抽出、ジオコーディング・アドレス、ジオコーディングIP、リバース・ジオタガの各モジュールを制御します。

trueに設定した場合、すべてのデータ・エンリッチメントが実行され、falseに設定した場合、いずれも実行されません。デフォルト値はtrue

データ・エンリッチメントの詳細は、データ処理ガイドを参照してください。

JAVA_PATH Javaインストール内のJavaバイナリのパス。クラスタ内の各サーバーで同じ場所にある必要があります。デフォルト値は、${JAVA_HOME}/bin/javaです。

このプロパティは、JAVA_HOMEと同じではないことに注意してください。

MAX_RECORDS データ・セットに含まれるレコードの最大数。たとえば、Hive表に1,000,000レコードある場合、サンプリングされるレコードの合計数を100,000に制限します。

各データ・セットの実際のレコード数はMAX_RECORDSの値より若干前後することがあることに注意してください。

デフォルト値は、1000000です。

SPARK_EXECUTOR_MEMORY データ処理ジョブがSparkワーカー・ノードから要求するメモリーの量。

デフォルト値は、48gです。大規模なHive表の処理を計画している場合、この値を大きくします。

SANDBOX_PATH ユーザーがBDDからデータをエクスポートすると作成されるAvroファイルが格納されるHDFSディレクトリのパス。デフォルト値は、/user/${HDFS_DP_USER_DIR}です。
LANGUAGE サポートされるISO-639言語コード(endefrなど)または値unknownを指定し、データ・セット内のすべての属性の言語プロパティを設定します。これは、索引付けの際、Oracle Language Technology (OLT)ライブラリが起動されるかどうかを制御します。

言語コードにはより多くの処理を必要としますが、指定した言語のOLTライブラリを使用することでよりよい処理および索引付けの結果になります。値がunknownの場合、処理時間は短くなりますが、処理および索引付けの結果はより汎用的になり、OLTは起動されません。

デフォルト値は、unknownです。

HIVE_DATABASE_NAME Studioデータ・セットのソース・データを格納するHiveデータベースの名前。これは、StudioおよびCLIによって使用されます。

デフォルト値は、defaultです。これは、Hive表ディテクタで使用されるDETECTOR_HIVE_DATABASEのデフォルト値と同じです。これらのプロパティに異なるデータベースを使用することはできますが、初回インストールのもので始めることをお薦めします。