4.7 データ・セットの比較

Oracle Big Data Managerコンソールでは、異なる記憶域プロバイダ内の大規模なデータ・セットを比較するジョブを作成して、スケジュールおよび実行できます。

  1. ページ上部にある「Data」タブをクリックしてから、ページの左側の「Explorer」タブをクリックします。
  2. 左側のパネルから項目を選択し、右側のパネルから比較する項目を選択します。同様の項目のみ比較できます(たとえば、ファイルとファイルやディレクトリとディレクトリなど)。
  3. ツールバーにある「Compare」 「Compare」アイコンをクリックします。
  4. 「New compare data job」ダイアログ・ボックスでは、次に説明するように値を指定します。

    「General」タブ

    • Job name:ジョブに指定された名前。必要に応じて変更できます。
    • Job type: この読取り専用フィールドには、ジョブのタイプが示されます。この例では、「Oracle Distributed Diff - compare」です。
    • CPU utilization: スライダを使用して、ジョブのCPU使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。高い値に設定すると、ジョブに対するCPU数が増えて、多数のファイルをコピーするときにはパフォーマンスの向上を見込めます。ただし、ジョブに割り当てるCPU数を増やすと、別のタスクに使用可能なクラスタ内のCPU数が少なくなります。
    • Memory utilization: スライダを使用して、ジョブのメモリー使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。ジョブに割り当てるメモリーを増やすと、ジョブのパフォーマンスが向上しますが、別のタスクで使用可能な空きメモリーが少なくなります。指定されたメモリーが少なすぎるジョブはクラッシュします。現在使用可能なメモリーよりも多くのメモリーがジョブに割り当てられている場合、そのジョブは要求されたメモリー量が使用可能になるまでPENDING状態のままになります。
    • Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。デフォルトで選択されています。
    • Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。簡略化したエントリを指定することも、「Advanced entry」をクリックしてcron式を入力することもできます。

    「Advanced」タブ

    • Diff file block size: ドロップダウン・リストから値を選択して、比較のレベルを指定します。小さな値ほど比較が詳細になり、時間がかかるようになります。デフォルト値は512MBです。
    • Number of executors per node: CPUコアの数を指定します。デフォルトは5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
    • Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。ドライバに割り当てられるメモリーは、タスクのスケジュールを担当するアプリケーション・ドライバに割り当てられるメモリーです。デフォルトは1GBです。
    • Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。デフォルトのロギング・レベルはINFOです。このチェック・ボックスが選択されていない場合、ジョブのロギング・レベルは、クラスタで構成されているレベルにデフォルト設定されます。
  5. 「Create」をクリックします。

    「Data compare job job_number created」ダイアログ・ボックスには、ジョブに関する最小限のステータス情報が表示されます。ジョブの完了時に、「View more details」をクリックすると、コンソールの「Jobs」セクションにジョブに関する詳細が表示されます。このリンクは、ジョブの実行中にクリックすることもできます。

  6. ジョブの結果を確認します。具体的には、ページの左側にある「Comparison results」タブをクリックして、比較した項目の相違内容と一致内容を表示します。