- Oracle Big Data Managerユーザーズ・ガイド
- データの転送および比較
- データのコピー(複数のソースからの場合を含む)
4.2 データのコピー(複数のソースからの場合を含む)
Oracle Big Data Managerコンソールの「Data」セクションでは、複数のソースを含むジョブを作成、スケジュール設定および実行できます。HTTP(S)経由でコピーすることもできます。
- ページ上部の「Data」タブをクリックし、ページの左側の「Explorer」タブをクリックします。
- 「Data Explorer」ページのいずれかのパネルで、コピー・ジョブの宛先としてターゲットの場所を選択します。
- そのパネルのツールバーで、「Copy here from HTTP(S)」
をクリックします。
- 「New copy data job」ダイアログ・ボックスで、「Sources」行に次のように情報を入力します。
- 最初のドロップダウン・リストから、「Direct link」を選択して1つのファイルをコピーするか、「Link to list of files」を選択してマニフェスト・ファイルにリストされている複数のファイルをコピーします(マニフェスト・ファイルには、カンマ区切り値(CSV)形式のリストが含まれています)。
- 2番目のドロップダウン・リストから、コピー元のデータ・ソースを選択します。このリストには、Oracle Big Data Managerに登録されたデータ・プロバイダが示されます。
- 「Sources」行の最後のコントロールは、2番目のドロップダウン・リストで選択したデータ・ソースのタイプによって異なります。HTTP(S)の場合は、「Enter a valid HTTP(S)」テキスト・ボックスにソースのURLを入力します。その他のタイプのデータソースの場合は、「Select file」ボタンをクリックし、ファイルまでナビゲートして選択します。
- 同じコピー・ジョブで複数のコピー元からからコピーする場合は、「Add source」ボタンをクリックして前のステップのタスクを繰り返します。
- コピー・ジョブのコピー先を変更する場合は、「Destination」フィールド内をクリックして、現在の場所を編集します。
- 「New copy data job」」ダイアログ・ボックスの各タブで、次の値を入力します。「General」タブ
- Job name: ジョブに指定された名前。この名前に付け足すことや、別の名前に置き換えることができます。
- Job type: この読取り専用フィールドには、ジョブのタイプが示されます。ここでは、「Data transfer — import from HTTP」になります。
- Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。
- Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。
「Advanced」タブ- Number of executors: ドロップダウン・リストからエグゼキュータの数を選択します。デフォルトの数は
3
です。4つ以上のノードがある場合、指定するエグゼキュータの数を増やすことで実行速度が向上します。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、エグゼキュータの数を減らしてパフォーマンスを向上させます。 - Number of CPU cores per executor: ドロップダウン・リストからコアの数を選択します。デフォルトの数は5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
- Memory allocated for each execution: ドロップダウン・リストからメモリーの量を選択します。デフォルト値は、40 GBです。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、メモリーを減らしてパフォーマンスを向上させます。
- Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。
- Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。
- HTTP proxy: このデータ転送のタイプがHTTP(S)のときにHTTP(S)ヘッダー情報がファイルに格納されている場合は、そのヘッダー情報をHTTP(S)リクエスト・ヘッダーに使用できます。「HTTP headers file」ドロップダウン・リストから、ファイルが含まれている記憶域を選択します。HTTP(S)を経由する場合は、「Enter a valid HTTP(S) URI」フィールドにファイルのURIを入力します。別の種類のプロバイダの場合は、「Select File」ボタンをクリックし、ファイルにナビゲートして選択します。
- 「Create」をクリックします。「Data compare job job_number created」ダイアログ・ボックスには、ジョブに関する最小限のステータス情報が表示されます。「View more details」リンクをクリックすると、コンソールの「Jobs」セクションにジョブの詳細が表示されます。
- ジョブの結果を確認します。具体的には、コンソールの「Jobs」セクションで、ページの左側にある「Comparison results」タブをクリックして、比較対象の項目について内容が同じものと異なるものを表示します。