次の表に示す設定は、データ処理タスクを実行するために正しく設定する必要があります。
これらの設定のデフォルト値の多くは、インストール・プロセス時にbdd.confで指定された値に基づいて移入されます。
一般に、次の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致している必要があります。 次の表に示すように、同じパラメータを持つ必要がある場合。 データ処理CLI構成プロパティの詳細は、「データ処理ガイド」を参照してください。
重要
特に明記していない場合、データ処理設定の編集はBig Data Discovery Cloud Serviceでサポートされていません。| Hadoopの設定 | 説明 |
|---|---|
bdd.enableEnrichments
|
データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。 この設定により、言語検出、用語の抽出、ジオコーディング住所、ジオコーディングIPおよびリバース・モジュールが制御されます。 trueの値はすべてのデータ・エンリッチメント・モジュールを実行し、falseはそれらを実行しません。 個別のエンリッチメントを有効にすることはできません。 デフォルト値はtrueです。
注意: この設定の編集は、BDD Cloud Serviceでサポートされます。 |
bdd.sampleSize
|
データ・セットのサンプル・サイズのレコードの最大数を指定します。 これは、グローバル設定では、Studioを使用してアップロードされるすべてのファイルのサンプル・サイズを制御します。また、結合、集計、FilterRowsなどの変換操作で生じるサンプル・サイズも制御します。
たとえば、5,000,000行のファイルをアップロードする場合、サンプリングされたレコードの合計数を1,000,000に制限できます。 デフォルト値は1,000,000です。 (この値は概算です。 データ処理の後、実際のサンプル・サイズはこの値よりもわずかに小さい場合があります。) 注意: この設定の編集は、BDD Cloud Serviceでサポートされます。 |
bdd.maxSplitSize
|
Sparkジョブの最大パーティション・サイズ(MB単位)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。
パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。 デフォルトは
bdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドすることに注意してください。 |
データ処理トポロジ
ページに移動して「データ処理トポロジ」ドロップダウンを展開すると、前述の構成可能設定に加えて、データ処理トポロジを確認できます。 これにより、次の情報が公開されます:
| Hadoopの設定 | 説明 |
|---|---|
| Hadoop管理コンソール | Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。 |
| ノードの名前付け | NameNode内部Webサーバーおよびポート。 |
| Hiveメタストア・サーバー | Hiveメタストア・リスナーおよびポート。 |
| Hiveサーバー | Hiveサーバーのリスナーとポート。 |
| Hue Server | Hue Webインタフェースのサーバーとポート。 |
| クラスタOLTホーム | BDDクラスタ内のOLTホーム・ディレクトリ。 BDDインストーラはこの値を検出して、設定に移入します。 |
| データベース名 | Studioデータ・セットのソース・データを格納するHiveデータベースの名前。 |
| EDPデータ・ディレクトリ | 各ワーカー・ノードのedp_cluster_*.zipファイルの内容が含まれているディレクトリ。
|
| サンドボックス | ユーザーがBig Data Discoveryからデータをエクスポートしたときに作成されるavroファイルを格納するHDFSディレクトリ。 デフォルト値は/user/bddです。
|