プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service管理者ガイド

E65370-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ処理設定のリスト

次の表に示す設定は、データ処理タスクを実行するために正しく設定する必要があります。

これらの設定のデフォルト値の多くは、インストール・プロセス時にbdd.confで指定された値に基づいて移入されます。

一般に、次の設定は、スクリプト自体に含まれているデータ処理CLI構成プロパティと一致している必要があります。 次の表に示すように、同じパラメータを持つ必要がある場合。 データ処理CLI構成プロパティの詳細は、「データ処理ガイド」を参照してください。

重要

特に明記していない場合、データ処理設定の編集はBig Data Discovery Cloud Serviceでサポートされていません。
Hadoopの設定 説明
bdd.enableEnrichments データ処理のサンプリング・フェーズ中にデータ・エンリッチメントを実行するかどうかを指定します。 この設定により、言語検出、用語の抽出、ジオコーディング住所、ジオコーディングIPおよびリバース・モジュールが制御されます。 trueの値はすべてのデータ・エンリッチメント・モジュールを実行し、falseはそれらを実行しません。 個別のエンリッチメントを有効にすることはできません。 デフォルト値はtrueです。

注意:

この設定の編集は、BDD Cloud Serviceでサポートされます。
bdd.sampleSize データ・セットのサンプル・サイズのレコードの最大数を指定します。 これは、グローバル設定では、Studioを使用してアップロードされるすべてのファイルのサンプル・サイズを制御します。また、結合、集計、FilterRowsなどの変換操作で生じるサンプル・サイズも制御します。

たとえば、5,000,000行のファイルをアップロードする場合、サンプリングされたレコードの合計数を1,000,000に制限できます。

デフォルト値は1,000,000です。 (この値は概算です。 データ処理の後、実際のサンプル・サイズはこの値よりもわずかに小さい場合があります。)

注意:

この設定の編集は、BDD Cloud Serviceでサポートされます。
bdd.maxSplitSize Sparkジョブの最大パーティション・サイズ(MB単位)。 これにより、データ処理ジョブで処理されるデータのブロックのサイズが制御されます。

パーティション・サイズはデータ処理のパフォーマンスに直接影響を与えます - パーティションが小さい場合は、パラレルで実行されるジョブやクラスタ・リソースがより効率的に使用されます。 これにより、速度と安定性の両方が向上します。

デフォルトはbdd.confファイルのMAX_INPUT_SPLIT_SIZEプロパティ(ユーザーが変更しない場合は32)によって設定されます。 32MBで十分な量のクラスタを使用する必要がありますが、例外はいくつかあります:
  • Hadoopクラスタで処理能力が非常に多く、データ・セットのほとんどが(1GB前後で)小さい場合、この値を減らすことができます。
  • まれに、データ・エンリッチメントが有効になっている場合、パーティション内のエンリッチ済データ・セットが大きすぎて、そのYARNコンテナが処理できないことがあります。 これが発生する場合、各パーティションで必要なメモリー量を減らすために、この値を減らすことができます。

このプロパティは、Hadoopで使用されるHDFSブロック・サイズをオーバーライドすることに注意してください。

データ処理トポロジ

Big Data Discovery > 「Big Data Discoveryについて」ページに移動して「データ処理トポロジ」ドロップダウンを展開すると、前述の構成可能設定に加えて、データ処理トポロジを確認できます。 これにより、次の情報が公開されます:

Hadoopの設定 説明
Hadoop管理コンソール Hadoopクラスタのマスターとして機能するマシンのホスト名および管理コンソール・ポート。
ノードの名前付け NameNode内部Webサーバーおよびポート。
Hiveメタストア・サーバー Hiveメタストア・リスナーおよびポート。
Hiveサーバー Hiveサーバーのリスナーとポート。
Hue Server Hue Webインタフェースのサーバーとポート。
クラスタOLTホーム BDDクラスタ内のOLTホーム・ディレクトリ。 BDDインストーラはこの値を検出して、設定に移入します。
データベース名 Studioデータ・セットのソース・データを格納するHiveデータベースの名前。
EDPデータ・ディレクトリ 各ワーカー・ノードのedp_cluster_*.zipファイルの内容が含まれているディレクトリ。
サンドボックス ユーザーがBig Data Discoveryからデータをエクスポートしたときに作成されるavroファイルを格納するHDFSディレクトリ。 デフォルト値は/user/bddです。