データ・セットの比較

4.7 データ・セットの比較

Oracle Big Data Managerコンソールでは、異なる記憶域プロバイダ内の大規模なデータ・セットを比較するジョブを作成、スケジュールおよび実行できます。

比較ジョブはOracle Big Data Applianceでodiffユーティリティを使用し、その計算は分散Sparkアプリケーションとして実行されます。

メニュー・バーの「Data」をクリックして、「Data Explorer」を開きます。
「Explorer」タブ(ページの左側)をクリックします。
左側のパネルの項目と右側のパネルの項目を選択して比較します。同様の項目のみ比較できます(たとえば、ファイルとファイルやディレクトリとディレクトリなど)。
ツールバーにある「Compare」をクリックします。
「New compare data job」ダイアログ・ボックスで、次の値を入力します。
「General」タブ
- Job name: ジョブに指定された名前。この名前に付け足すことや、別の名前に置き換えることができます。
- Job type: この読取り専用フィールドには、ジョブのタイプが示されます。この場合は、「Oracle Distributed Diff — compare」です。
- Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。
- Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。
「Advanced」タブ
- Number of executors: ドロップダウン・リストからエグゼキュータの数を選択します。デフォルトの数は3です。4つ以上のノードがある場合、指定するエグゼキュータの数を増やすことで実行速度が向上します。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、エグゼキュータの数を減らしてパフォーマンスを向上させます。
- Number of CPU cores per executor: ドロップダウン・リストからコアの数を選択します。デフォルトの数は5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
- Memory allocated for each execution: ドロップダウン・リストからメモリーの量を選択します。デフォルト値は、40 GBです。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、メモリーを減らしてパフォーマンスを向上させます。
- Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。
- Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。
「Create」をクリックします。
「Data compare job job_number created」ダイアログ・ボックスには、ジョブに関する最小限のステータス情報が表示されます。「View more details」リンクをクリックすると、コンソールの「Jobs」セクションにジョブの詳細が表示されます。
ジョブの結果を確認します。具体的には、コンソールの「Jobs」セクションで、ページの左側にある「Comparison results」タブをクリックして、比較対象の項目について内容が同じものと異なるものを表示します。

図jobs-compare-results.pngの説明

親トピック: データの転送および比較