次の表に示す設定は、データ処理タスクを実行するために正しく設定する必要があります。
これらの設定のデフォルト値の多くは、インストール・プロセス時にbdd.conf
で指定された値に基づいて移入されます。
一般に、次の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致している必要があります。 次の表に示すように、同じパラメータを持つ必要がある場合。 データ処理CLI構成プロパティの詳細は、「データ処理ガイド」を参照してください。
重要
特に明記していない場合、データ処理設定の編集はBig Data Discovery Cloud Serviceでサポートされていません。Hadoopの設定 | 説明 |
---|---|
bdd.enableEnrichments
|
データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。 この設定により、言語検出、用語の抽出、ジオコーディング住所、ジオコーディングIPおよびリバース・モジュールが制御されます。 true の値はすべてのデータ・エンリッチメント・モジュールを実行し、false はそれらを実行しません。 個別のエンリッチメントを有効にすることはできません。 デフォルト値はtrue です。
注意: この設定の編集は、BDD Cloud Serviceでサポートされます。 |
bdd.sampleSize
|
データ・セットのサンプル・サイズのレコードの最大数を指定します。 これは、グローバル設定では、Studioを使用してアップロードされるすべてのファイルのサンプル・サイズを制御します。また、結合、集計、FilterRowsなどの変換操作で生じるサンプル・サイズも制御します。
たとえば、5,000,000行のファイルをアップロードする場合、サンプリングされたレコードの合計数を1,000,000に制限できます。 デフォルト値は1,000,000です。 (この値は概算です。 データ処理の後、実際のサンプル・サイズはこの値よりもわずかに小さい場合があります。) 注意: この設定の編集は、BDD Cloud Serviceでサポートされます。 |
bdd.maxSplitSize
|
Sparkジョブの最大パーティション・サイズ(MB単位)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。
パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。 デフォルトは
bdd.conf ファイルのMAX_INPUT_SPLIT_SIZE プロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドすることに注意してください。 |
データ処理トポロジ
「データ処理トポロジ」ドロップダウンを展開すると、前述の構成可能設定に加えて、データ処理トポロジを確認できます。 ページに移動してこれにより、次の情報が公開されます:
Hadoopの設定 | 説明 |
---|---|
Hadoop管理コンソール | Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。 |
ノードの名前付け | NameNode内部Webサーバーおよびポート。 |
Hiveメタストア・サーバー | Hiveメタストア・リスナーおよびポート。 |
Hiveサーバー | Hiveサーバーのリスナーとポート。 |
Hue Server | Hue Webインタフェースのサーバーとポート。 |
クラスタOLTホーム | BDDクラスタ内のOLTホーム・ディレクトリ。 BDDインストーラはこの値を検出して、設定に移入します。 |
データベース名 | Studioデータ・セットのソース・データを格納するHiveデータベースの名前。 |
EDPデータ・ディレクトリ | 各ワーカー・ノードのedp_cluster_*.zip ファイルの内容が含まれているディレクトリ。
|
サンドボックス | ユーザーがBig Data Discoveryからデータをエクスポートしたときに作成されるavroファイルを格納するHDFSディレクトリ。 デフォルト値は/user/bdd です。
|