「New copy data job」ダイアログ・ボックスで、次に示すように「Sources」行に情報を入力します。
最初のドロップダウン・リストから、「Direct link」を選択して1つのファイルをコピーするか、「Link to list of files」を選択してマニフェスト・ファイルにリストされている複数のファイルをコピーします(マニフェスト・ファイルには、カンマ区切り値(CSV)形式のリストが含まれています)。
2番目のドロップダウン・リストから、「HTTP(S)」を選択します(まだ選択されていない場合)。
「Sources」行の最後のコントロールで、「Enter a valid HTTP(S) URL」ボックスにコピー元のURLを入力します。
Number of executors: ドロップダウン・リストからエグゼキュータの数を選択します。デフォルトの数は3です。4つ以上のノードがある場合、指定するエグゼキュータの数を増やすことで実行速度が向上します。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、エグゼキュータの数を減らしてパフォーマンスを向上させます。
Number of CPU cores per executor: ドロップダウン・リストからコアの数を選択します。デフォルトの数は5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
Memory allocated for each execution: ドロップダウン・リストからメモリーの量を選択します。デフォルト値は、40 GBです。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、メモリーを減らしてパフォーマンスを向上させます。
Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。