データ処理設定のリスト

次の表に示す設定は、データ処理タスクを実行するために正しく設定する必要があります。

これらの設定のデフォルト値の多くは、インストール・プロセス時にbdd.confで指定された値に基づいて移入されます。

一般に、次の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致している必要があります。次の表に示すように、同じパラメータを持つ必要がある場合。データ処理CLI構成プロパティの詳細は、「データ処理ガイド」を参照してください。

重要

特に明記していない場合、データ処理設定の編集はBig Data Discovery Cloud Serviceでサポートされていません。

Hadoopの設定説明

Hadoopの設定	説明
`bdd.enableEnrichments`	データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定により、言語検出、用語の抽出、ジオコーディング住所、ジオコーディングIPおよびリバース・モジュールが制御されます。 `true`の値はすべてのデータ・エンリッチメント・モジュールを実行し、`false`はそれらを実行しません。個別のエンリッチメントを有効にすることはできません。デフォルト値は`true`です。注意: この設定の編集は、BDD Cloud Serviceでサポートされます。
`bdd.sampleSize`	データ・セットのサンプル・サイズのレコードの最大数を指定します。これは、グローバル設定では、Studioを使用してアップロードされるすべてのファイルのサンプル・サイズを制御します。また、結合、集計、FilterRowsなどの変換操作で生じるサンプル・サイズも制御します。たとえば、5,000,000行のファイルをアップロードする場合、サンプリングされたレコードの合計数を1,000,000に制限できます。デフォルト値は1,000,000です。 (この値は概算です。データ処理の後、実際のサンプル・サイズはこの値よりもわずかに小さい場合があります。) 注意: この設定の編集は、BDD Cloud Serviceでサポートされます。
`bdd.maxSplitSize`	Sparkジョブの最大パーティション・サイズ(MB単位)。これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。これにより、速度と安定性の両方が向上します。デフォルトは`bdd.conf`ファイルの`MAX_INPUT_SPLIT_SIZE`プロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります: Hadoopクラスタで処理能力が非常に多く、データ・セットのほとんどが(1GB前後で)小さい場合、この値を減らすことができます。まれに、データ・エンリッチメントが有効になっている場合、パーティション内のエンリッチ済データ・セットが大きすぎて、そのYARNコンテナが処理できないことがあります。これが発生する場合、各パーティションで必要なメモリー量を減らすために、この値を減らすことができます。このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドすることに注意してください。

bdd.enableEnrichments

データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定により、言語検出、用語の抽出、ジオコーディング住所、ジオコーディングIPおよびリバース・モジュールが制御されます。 trueの値はすべてのデータ・エンリッチメント・モジュールを実行し、falseはそれらを実行しません。個別のエンリッチメントを有効にすることはできません。デフォルト値はtrueです。

注意:

この設定の編集は、BDD Cloud Serviceでサポートされます。

bdd.sampleSize

データ・セットのサンプル・サイズのレコードの最大数を指定します。これは、グローバル設定では、Studioを使用してアップロードされるすべてのファイルのサンプル・サイズを制御します。また、結合、集計、FilterRowsなどの変換操作で生じるサンプル・サイズも制御します。

たとえば、5,000,000行のファイルをアップロードする場合、サンプリングされたレコードの合計数を1,000,000に制限できます。

デフォルト値は1,000,000です。 (この値は概算です。データ処理の後、実際のサンプル・サイズはこの値よりもわずかに小さい場合があります。)

注意:

この設定の編集は、BDD Cloud Serviceでサポートされます。

bdd.maxSplitSize

Sparkジョブの最大パーティション・サイズ(MB単位)。これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。

パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。これにより、速度と安定性の両方が向上します。

デフォルトはbdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:

Hadoopクラスタで処理能力が非常に多く、データ・セットのほとんどが(1GB前後で)小さい場合、この値を減らすことができます。
まれに、データ・エンリッチメントが有効になっている場合、パーティション内のエンリッチ済データ・セットが大きすぎて、そのYARNコンテナが処理できないことがあります。これが発生する場合、各パーティションで必要なメモリー量を減らすために、この値を減らすことができます。

このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドすることに注意してください。

データ処理トポロジ

Big Data Discovery > 「Big Data Discoveryについて」ページに移動して「データ処理トポロジ」ドロップダウンを展開すると、前述の構成可能設定に加えて、データ処理トポロジを確認できます。これにより、次の情報が公開されます:

Hadoopの設定	説明
Hadoop管理コンソール	Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。
ノードの名前付け	NameNode内部Webサーバーおよびポート。
Hiveメタストア・サーバー	Hiveメタストア・リスナーおよびポート。
Hiveサーバー	Hiveサーバーのリスナーとポート。
Hue Server	Hue Webインタフェースのサーバーとポート。
クラスタOLTホーム	BDDクラスタ内のOLTホーム・ディレクトリ。 BDDインストーラはこの値を検出して、設定に移入します。
データベース名	Studioデータ・セットのソース・データを格納するHiveデータベースの名前。
EDPデータ・ディレクトリ	各ワーカー・ノードの`edp_cluster_*.zip`ファイルの内容が含まれているディレクトリ。
サンドボックス	ユーザーがBig Data Discoveryからデータをエクスポートしたときに作成されるavroファイルを格納するHDFSディレクトリ。デフォルト値は`/user/bdd`です。