データ処理タスクを実行するには、後述の表にリストされている設定を正しく設定する必要があります。
これらの設定のデフォルト値の多くは、インストール・プロセス中にbdd.confで指定された値に基づいて移入されます。
一般に、後述の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致する必要があります。同じである必要があるパラメータは、後述の表にそのようなものとして記述されています。データ処理CLI構成プロパティの詳細は、データ処理ガイドを参照してください。
Hadoop設定 | 説明 |
---|---|
bdd.enableEnrichments | データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定は、言語検出、語の抽出、アドレスのジオコード化、IPのジオコード化、およびGeotaggerのリバースのモジュールを制御します。値がtrueの場合はすべてのデータ・エンリッチメント・モジュールを実行し、falseの場合は実行しません。個々のエンリッチメントを有効にすることはできません。デフォルト値はtrue。 |
bdd.kryoBufferSize | Kryoに割り当てられるバッファ領域の量を指定します。Kryo関連の例外が発生した場合、この値を増やす必要がある場合があります。デフォルト値は1024MBです。 |
bdd.kryoMode | Kryoモードを有効化または無効化するブール値を指定します。Kryoモードでは、Sparkワーカー・ノード間でデータをシリアライズおよび移動する別の方法が提供されます。値がtrueの場合はKryoモードを有効化し、falseの場合はJavaシリアライゼーションを使用します。Kryoモードは、一般にデータ処理では高速ですが、予想しにくい状況では例外が発生する可能性があります。デフォルト値はfalseです。 |
bdd.maxRecordsToProcess | カタログ内のデータ・セットのサンプル・サイズにするために処理されるレコードの最大数を指定します。これは、Studioを使用してアップロードされるすべてのExcelおよびCSVファイルのサンプル・サイズを制御するグローバル設定です。
たとえば、5,000,000行あるファイルをアップロードする場合、サンプル・レコードの合計数を1,000,000に制限できます。 デフォルト値は1,000,000です。(この値は概算です。データ処理後に、実際のサンプル・サイズは、この値より少し大きいか小さい場合があります。) |
bdd.maxSplitSize | Sparkジョブの最大パーティション・サイズ(MBで測定)。これは、データ処理ジョブによって処理されるデータのブロックのサイズを制御します。
パーティション・サイズはデータ処理のパフォーマンスに直接影響を及ぼします - パーティションを小さくすると、より多くのジョブが並行して実行され、クラスタ・リソースは効率的に使用されます。これにより、速度と安定性の両方が向上します。 デフォルトは、bdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティで設定されます(ユーザーが変更していないかぎり32です)。32MBは、ほとんどのクラスタで十分な量です(いくつかの例外を除く)。
このプロパティによって、Hadoopで使用されるHDFSブロック・サイズがオーバーライドされることに注意してください。 |
前述の構成可能な設定に加えて、「データ処理トポロジ」ドロップダウンを展開することによって、データ処理トポロジを確認できます。次の情報が公開されます。
ページに移動し、Hadoop設定 | 説明 |
---|---|
Hadoopホスト | Hadoopクラスタのマスターとして機能するマシンのホスト名。 |
名前ノード・ポート | NameNode内部Webサーバー・ポート。 |
ハイブMetastoreサーバー・ポート | ハイブMetastoreリスナー・ポート。 |
ハイブ・サーバー・ポート | ハイブ・サーバー・リスナー・ポート。 |
Hue Httpポート | Hue Webインタフェース・ポート。 |
クラスタOLTホーム | BDDクラスタ内のOLTホーム・ディレクトリ。BDDインストーラはこの値を検出し、設定を移入します。 |
データベース名 | Studioデータ・セットのソース・データを格納するHiveデータベースの名前。 |
EDPデータ・ディレクトリ | 各ワーカー・ノード上でedp_cluster_*.zipファイルのコンテンツを含むディレクトリ。 |
サンドボックス | ユーザーがBig Data Discoveryからデータをエクスポートする際に作成されるavroファイルを格納するHDFSディレクトリ。デフォルト値は/user/bddです。 |