データ処理設定のリスト

データ処理タスクを実行するには、後述の表にリストされている設定を正しく設定する必要があります。

これらの設定のデフォルト値の多くは、インストール・プロセス中にbdd.confで指定された値に基づいて移入されます。

一般に、後述の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致する必要があります。同じである必要があるパラメータは、後述の表にそのようなものとして記述されています。データ処理CLI構成プロパティの詳細は、データ処理ガイドを参照してください。

Hadoop設定 説明
bdd.enableEnrichments データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定は、言語検出、語の抽出、アドレスのジオコード化、IPのジオコード化、およびGeotaggerのリバースのモジュールを制御します。値がtrueの場合はすべてのデータ・エンリッチメント・モジュールを実行し、falseの場合は実行しません。個々のエンリッチメントを有効にすることはできません。デフォルト値はtrue
bdd.kryoBufferSize Kryoに割り当てられるバッファ領域の量を指定します。Kryo関連の例外が発生した場合、この値を増やす必要がある場合があります。デフォルト値は1024MBです。
bdd.kryoMode Kryoモードを有効化または無効化するブール値を指定します。Kryoモードでは、Sparkワーカー・ノード間でデータをシリアライズおよび移動する別の方法が提供されます。値がtrueの場合はKryoモードを有効化し、falseの場合はJavaシリアライゼーションを使用します。Kryoモードは、一般にデータ処理では高速ですが、予想しにくい状況では例外が発生する可能性があります。デフォルト値はfalseです。
bdd.maxRecordsToProcess カタログ内のデータ・セットのサンプル・サイズにするために処理されるレコードの最大数を指定します。これは、Studioを使用してアップロードされるすべてのExcelおよびCSVファイルのサンプル・サイズを制御するグローバル設定です。

たとえば、5,000,000行あるファイルをアップロードする場合、サンプル・レコードの合計数を1,000,000に制限できます。

デフォルト値は1,000,000です。(この値は概算です。データ処理後に、実際のサンプル・サイズは、この値より少し大きいか小さい場合があります。)

bdd.maxSplitSize Sparkジョブの最大パーティション・サイズ(MBで測定)。これは、データ処理ジョブによって処理されるデータのブロックのサイズを制御します。

パーティション・サイズはデータ処理のパフォーマンスに直接影響を及ぼします - パーティションを小さくすると、より多くのジョブが並行して実行され、クラスタ・リソースは効率的に使用されます。これにより、速度と安定性の両方が向上します。

デフォルトは、bdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティで設定されます(ユーザーが変更していないかぎり32です)。32MBは、ほとんどのクラスタで十分な量です(いくつかの例外を除く)。
  • Hadoopクラスタの処理容量が非常に大きく、データ・セットのほとんどが小さい(約1GB)の場合、この値を減らすことができます。
  • まれに、データ・エンリッチメントを有効にすると、パーティション内のエンリッチ済データ・セットが大きくなりすぎて、YARNコンテナが処理できなくなります。これが発生した場合、この値を減らして、各パーティションが必要とするメモリーの量を削減できます。

このプロパティによって、Hadoopで使用されるHDFSブロック・サイズがオーバーライドされることに注意してください。

データ処理トポロジ

前述の構成可能な設定に加えて、「Big Data Discovery」「Big Data Discoveryについて」ページに移動し、「データ処理トポロジ」ドロップダウンを展開することによって、データ処理トポロジを確認できます。次の情報が公開されます。

Hadoop設定 説明
Hadoopホスト Hadoopクラスタのマスターとして機能するマシンのホスト名。
名前ノード・ポート NameNode内部Webサーバー・ポート。
ハイブMetastoreサーバー・ポート ハイブMetastoreリスナー・ポート。
ハイブ・サーバー・ポート ハイブ・サーバー・リスナー・ポート。
Hue Httpポート Hue Webインタフェース・ポート。
クラスタOLTホーム BDDクラスタ内のOLTホーム・ディレクトリ。BDDインストーラはこの値を検出し、設定を移入します。
データベース名 Studioデータ・セットのソース・データを格納するHiveデータベースの名前。
EDPデータ・ディレクトリ 各ワーカー・ノード上でedp_cluster_*.zipファイルのコンテンツを含むディレクトリ。
サンドボックス ユーザーがBig Data Discoveryからデータをエクスポートする際に作成されるavroファイルを格納するHDFSディレクトリ。デフォルト値は/user/bddです。