HTTPを介したデータのコピー

4.5 HTTPを介したデータのコピー

Oracle Big Data Managerコンソールの「Data」セクションでは、HTTPプロトコルを使用してWebサーバー上のソースからデータをコピーするジョブの作成、スケジュールおよび実行が可能です。

ページ上部の「Data」タブをクリックし、ページの左側の「Explorer」タブをクリックします(まだ選択されていない場合)。
ツールバーで、「Copy here from HTTP(S)」をクリックします。
「New copy data job」ダイアログ・ボックスで、次に示すように「Sources」行に情報を入力します。
1. 最初のドロップダウン・リストから、「Direct link」を選択して1つのファイルをコピーするか、「Link to list of files」を選択してマニフェスト・ファイルにリストされている複数のファイルをコピーします(マニフェスト・ファイルには、カンマ区切り値(CSV)形式のリストが含まれています)。
2. 2番目のドロップダウン・リストから、「HTTP(S)」を選択します(まだ選択されていない場合)。
3. 「Sources」行の最後のコントロールで、「Enter a valid HTTP(S) URL」ボックスにコピー元のURLを入力します。
同じコピー・ジョブで複数のコピー元からからコピーする場合は、「Add source」ボタンをクリックして前のステップのタスクを繰り返します。
コピー・ジョブのコピー先を変更する場合は、「Destination」フィールド内をクリックして、現在の場所を編集します。
「New copy data job」」ダイアログ・ボックスの各タブで、次の値を入力します。
「General」タブ
- Job name: ジョブに指定された名前。この名前に付け足すことや、別の名前に置き換えることができます。
- Job type: この読取り専用フィールドには、ジョブのタイプが示されます。ここでは、「Data transfer — import from HTTP」になります。
- Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。
- Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。
「Advanced」タブ
- Number of executors: ドロップダウン・リストからエグゼキュータの数を選択します。デフォルトの数は3です。4つ以上のノードがある場合、指定するエグゼキュータの数を増やすことで実行速度が向上します。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、エグゼキュータの数を減らしてパフォーマンスを向上させます。
- Number of CPU cores per executor: ドロップダウン・リストからコアの数を選択します。デフォルトの数は5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
- Memory allocated for each execution: ドロップダウン・リストからメモリーの量を選択します。デフォルト値は、40 GBです。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、メモリーを減らしてパフォーマンスを向上させます。
- Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。
- Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。
- HTTP proxy: ファイル内にHTTP(S)ヘッダー情報を格納している場合は、そのヘッダー情報をHTTP(S)リクエスト・ヘッダーに使用できます。「HTTP headers file」ドロップダウン・リストから、ファイルが含まれている記憶域を選択します。HTTP(S)を経由する場合は、「Enter a valid HTTP(S) URI」フィールドにファイルのURIを入力します。別の種類のプロバイダの場合は、「Select File」ボタンをクリックし、ファイルにナビゲートして選択します。
「Create」をクリックします。
「Data copy job job_number created」ダイアログ・ボックスには、ジョブについての最小限ステータス情報が表示されます。「View more details」リンクをクリックすると、コンソールの「Jobs」セクションにジョブの詳細が表示されます。
ジョブの結果を確認します。具体的には、コンソールの「Jobs」セクションで、ページの左側にある「Comparison results」タブをクリックして、比較対象の項目について内容が同じものと異なるものを表示します。