データ処理設定のリスト

データ処理タスクを実行するには、後述の表にリストされている設定を正しく設定する必要があります。

これらの設定のデフォルト値の多くは、インストール・プロセス中にbdd.confで指定された値に基づいて移入されます。

一般に、後述の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致する必要があります。同じである必要があるパラメータは、後述の表にそのようなものとして記述されています。データ処理CLI構成プロパティの詳細は、データ処理ガイドを参照してください。

重要: 特に指定がないかぎり、データ処理設定の編集は、Big Data Discovery Cloud Serviceでサポートされていません。
Hadoop設定 説明
bdd.enableEnrichments データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定は、言語検出、語の抽出、アドレスのジオコード化、IPのジオコード化、およびGeotaggerのリバースのモジュールを制御します。値がtrueの場合はすべてのデータ・エンリッチメント・モジュールを実行し、falseの場合は実行しません。個々のエンリッチメントを有効にすることはできません。デフォルト値はtrue
注意: この設定の編集は、BDD Cloud Serviceでサポートされています。
bdd.sampleSize データ・セットのサンプル・サイズの最大レコード数を指定します。これは、Studioを使用してアップロードされたすべてのファイルのサンプル・サイズと、Join、Aggregate、FilterRowsなどの変換操作によるサンプル・サイズの両方を制御するグローバル設定です。

たとえば、5,000,000行あるファイルをアップロードする場合、サンプル・レコードの合計数を1,000,000に制限できます。

デフォルト値は1,000,000です。(この値は概算です。データ処理後に、実際のサンプル・サイズは、この値より少し大きいか小さい場合があります。)

注意: この設定の編集は、BDD Cloud Serviceでサポートされています。
bdd.maxSplitSize Sparkジョブの最大パーティション・サイズ(MBで測定)。これは、データ処理ジョブによって処理されるデータのブロックのサイズを制御します。

パーティション・サイズはデータ処理のパフォーマンスに直接影響を及ぼします - パーティションを小さくすると、より多くのジョブが並行して実行され、クラスタ・リソースは効率的に使用されます。これにより、速度と安定性の両方が向上します。

デフォルトは、bdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティで設定されます(ユーザーが変更していないかぎり32です)。32MBは、ほとんどのクラスタで十分な量です(いくつかの例外を除く)。
  • Hadoopクラスタの処理容量が非常に大きく、データ・セットのほとんどが小さい(約1GB)の場合、この値を減らすことができます。
  • まれに、データ・エンリッチメントを有効にすると、パーティション内のエンリッチ済データ・セットが大きくなりすぎて、YARNコンテナが処理できなくなります。これが発生した場合、この値を減らして、各パーティションが必要とするメモリーの量を削減できます。

このプロパティによって、Hadoopで使用されるHDFSブロック・サイズがオーバーライドされることに注意してください。

データ処理トポロジ

前述の構成可能な設定に加えて、「Big Data Discovery」「Big Data Discoveryについて」ページに移動し、「データ処理トポロジ」ドロップダウンを展開することによって、データ処理トポロジを確認できます。次の情報が公開されます。

Hadoop設定 説明
Hadoop管理コンソール Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。
名前ノード NameNode内部Webサーバーおよびポート。
Hive Metastoreサーバー Hive Metastoreリスナーおよびポート。
Hiveサーバー Hiveサーバー・リスナーおよびポート。
Hueサーバー Hue Webインタフェース・サーバーおよびポート。
クラスタOLTホーム BDDクラスタ内のOLTホーム・ディレクトリ。BDDインストーラはこの値を検出し、設定を移入します。
データベース名 Studioデータ・セットのソース・データを格納するHiveデータベースの名前。
EDPデータ・ディレクトリ 各ワーカー・ノード上でedp_cluster_*.zipファイルのコンテンツを含むディレクトリ。
サンドボックス ユーザーがBig Data Discoveryからデータをエクスポートする際に作成されるavroファイルを格納するHDFSディレクトリ。デフォルト値は/user/bddです。