データ処理タスクを実行するには、後述の表にリストされている設定を正しく設定する必要があります。
これらの設定のデフォルト値の多くは、インストール・プロセス中にbdd.confで指定された値に基づいて移入されます。
一般に、後述の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致する必要があります。同じである必要があるパラメータは、後述の表にそのようなものとして記述されています。データ処理CLI構成プロパティの詳細は、データ処理ガイドを参照してください。
Hadoop設定 | 説明 |
---|---|
bdd.enableEnrichments | データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。この設定は、言語検出、語の抽出、アドレスのジオコード化、IPのジオコード化、およびGeotaggerのリバースのモジュールを制御します。値がtrueの場合はすべてのデータ・エンリッチメント・モジュールを実行し、falseの場合は実行しません。個々のエンリッチメントを有効にすることはできません。デフォルト値はtrue。
注意: この設定の編集は、BDD Cloud Serviceでサポートされています。
|
bdd.sampleSize | データ・セットのサンプル・サイズの最大レコード数を指定します。これは、Studioを使用してアップロードされたすべてのファイルのサンプル・サイズと、Join、Aggregate、FilterRowsなどの変換操作によるサンプル・サイズの両方を制御するグローバル設定です。
たとえば、5,000,000行あるファイルをアップロードする場合、サンプル・レコードの合計数を1,000,000に制限できます。 デフォルト値は1,000,000です。(この値は概算です。データ処理後に、実際のサンプル・サイズは、この値より少し大きいか小さい場合があります。) 注意: この設定の編集は、BDD Cloud Serviceでサポートされています。
|
前述の構成可能な設定に加えて、「データ処理トポロジ」ドロップダウンを展開することによって、データ処理トポロジを確認できます。次の情報が公開されます。
ページに移動し、Hadoop設定 | 説明 |
---|---|
Hadoop管理コンソール | Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。 |
名前ノード | NameNode内部Webサーバーおよびポート。 |
Hive Metastoreサーバー | Hive Metastoreリスナーおよびポート。 |
Hiveサーバー | Hiveサーバー・リスナーおよびポート。 |
Hueサーバー | Hue Webインタフェース・サーバーおよびポート。 |
データベース名 | Studioデータ・セットのソース・データを格納するHiveデータベースの名前。 |
サンドボックス | ユーザーがBig Data Discoveryからデータをエクスポートする際に作成されるParquetファイルを格納するHDFSディレクトリ。デフォルト値は/user/bddです。 |