- Oracle Big Data Managerの使用
- データの転送および比較
- データのコピー(複数のソースからの場合を含む)
4.2 データのコピー(複数のソースからの場合を含む)
Oracle Big Data Managerコンソールの「Data」セクションでは、複数のソースが含まれているジョブを作成、スケジュールおよび実行できます。HTTP(S)経由でコピーすることもできます。
- ページ上部にある「Data」タブをクリックしてから、ページの左側の「Explorer」タブをクリックします。
- いずれかのパネルで、「Storage」ドロップダウン・リストからコピー・ジョブのコピー先記憶域プロバイダを選択します。
- そのパネルのツールバーで、「Copy here from HTTP(S)」
をクリックします。
- 「New copy data job」ダイアログ・ボックスで、コピーするソースを選択します。
- 「Sources」の横にある「Select file or directory」ボタンをクリックします。
- 「Location」ドロップダウン・リストから、コピー元の記憶域プロバイダを選択します。このリストには、Oracle Big Data Managerに登録された記憶域プロバイダが示されます。
- 必要に応じて、「Use file as link to list of files」を選択して、単一のファイルに直接リンクするかわりにファイルのリストにリンクします。このオプションを選択する場合、ファイルは
.csv
ファイルであり、ファイルの各行はスキーマlink_to_file[,http_headers_ encoded_in_Base64]
を満たしている必要があります。このスキーマの,http_headers_ encoded_in_Base64
はオプションです。次に例を示します。http://172.16.253.111/public/big.file https://172.16.253.111/public/small.file http://172.16.253.111/private/secret.file,QXV0aG9yaXphdGlvbjogQmFzaWMgYjNKaFkyeGxPa2cwY0hCNVJqQjQK https://oracle:passwd@172.16.253.111/private/small.file
- コピーする項目に移動して選択します。「Path」フィールドでは、手動でパスを指定することもできます。「HTTP(S)」の場合は、「URI」フィールドにソースのURIを入力します。
- 「Select」をクリックします。
- 同じコピー・ジョブで複数のコピー元からからコピーする場合は、「Add source」ボタンをクリックして前のステップのタスクを繰り返します。
- コピー・ジョブのコピー先を変更する場合は、「Destination」フィールド内をクリックして現在の場所を編集します。
- 「New copy data job」ダイアログ・ボックスでは、次に説明するように値を指定します。
「General」タブ
- Job name:ジョブに指定された名前。必要に応じて変更できます。
- Job type: この読取り専用フィールドには、ジョブのタイプが示されます。この例では、「Data transfer - import from HTTP」です。
- CPU utilization: スライダを使用して、ジョブのCPU使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。高い値に設定すると、ジョブに対するCPU数が増えて、多数のファイルをコピーするときにはパフォーマンスの向上を見込めます。ただし、ジョブに割り当てるCPU数を増やすと、別のタスクに使用可能なクラスタ内のCPU数が少なくなります。
- Memory utilization: スライダを使用して、ジョブのメモリー使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。ジョブに割り当てるメモリーを増やすと、ジョブのパフォーマンスが向上しますが、別のタスクで使用可能な空きメモリーが少なくなります。指定されたメモリーが少なすぎるジョブはクラッシュします。現在使用可能なメモリーよりも多くのメモリーがジョブに割り当てられている場合、そのジョブは要求されたメモリー量が使用可能になるまでPENDING状態のままになります。
- Overwrite existing files: このオプションは、ターゲットの宛先にある同じ名前の既存のファイルを上書きする場合に選択します。デフォルトで選択されています。
- Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。デフォルトで選択されています。
- Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。簡略化したエントリを指定することも、「Advanced entry」をクリックしてcron式を入力することもできます。
「Advanced」タブ- Block size: ドロップダウン・リストからHDFSのファイル・チャンク・サイズを選択します。
- Number of executors per node: コア数を指定します。デフォルトは5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
- Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。ドライバに割り当てられるメモリーは、タスクのスケジュールを担当するアプリケーション・ドライバに割り当てられるメモリーです。デフォルトは1GBです。
- Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。デフォルトのロギング・レベルはINFOです。このチェック・ボックスが選択されていない場合、ジョブのロギング・レベルは、クラスタで構成されているレベルにデフォルト設定されます。
-
HTTP proxy: このデータ転送のタイプがHTTP(S)のときにHTTP(S)ヘッダー情報がファイルに格納されている場合は、そのヘッダー情報をHTTP(S)リクエスト・ヘッダーに使用できます。「Select file」をクリックし、「Location」ドロップダウン・リストから記憶域プロバイダを選択して、HTTP (S)ヘッダー情報が含まれているファイルに移動して選択します。「HTTP(S)」の場合は、「URI」フィールドにファイルのURIを入力します。「Select file」をクリックします。
HTTP (S)ヘッダーを含むファイルの構造は、
regex_pattern,http_headers
になります。たとえば、次のファイルでは、パスまたは名前にimage
が含まれているファイルに対して、特定のHTTP (S)ヘッダーを適用します。HTTP (S)ヘッダーは、Base64でエンコードされている必要があります。.*image.*,QXV0aG9yaXphdGlvbjogQmFzaWMgYjNKaFkyeGxPa2cwY0hCNVJqQjQK
- 「Create」をクリックします。
「Data copy job job_number created」ダイアログ・ボックスには、ジョブについての最小限ステータス情報が表示されます。ジョブの完了時に、「View more details」をクリックすると、コンソールの「Jobs」セクションにジョブの詳細が表示されます。このリンクは、ジョブの実行中にクリックすることもできます。
- ジョブの結果を確認します。左側のタブには、各種の情報が表示されます。各タブにあるジョブの
メニューからは、実行中のジョブの停止や削除、完了したジョブの再実行や削除を実行することもできます。
- 「Summary」タブには、ジョブのサマリー情報が表示されます。
- 「Arguments」タブには、ジョブに渡されたパラメータが表示されます。
- 「Job output」タブには、ジョブの出力が表示されます。この出力はダウンロードすることもできます。
「Manage Jobs in Oracle Big Data Managerでのジョブの管理」も参照してください。