- Oracle Big Data Managerの使用
- データの転送および比較
- データのコピー(ドラッグ・アンド・ドロップを含む)
4.1 データのコピー(ドラッグ・アンド・ドロップを含む)
Oracle Big Data Managerコンソールの「Data」セクションでは、コピー・ジョブを作成することで、記憶域プロバイダ間でデータをコピーできます。
記憶域プロバイダ間でデータをコピーするには:
- ページ上部にある「Data」タブをクリックしてから、ページの左側の「Explorer」タブをクリックします。
- どちらかのパネルで、「Storage」ドロップダウン・リストからコピー・ジョブの宛先記憶域プロバイダを選択して、ブレッドクラムで場所を選択するか、その下にあるリスト内でドリルダウンしてフォルダまたはコンテナにナビゲートします。次に例を示します。
- もう一方のパネルで、「Storage」ドロップダウン・リストからソース記憶域プロバイダを選択して、コピーするファイル、フォルダまたはコンテナが格納されているフォルダまたはコンテナに移動します。
- 次のいずれかの操作を実行します。
- ソースからソース・ファイル、フォルダまたはコンテナをドラッグしてターゲットにドロップします。
- コピーするアイテムを右クリックして、メニューから「Copy」を選択します。
- コピーする項目を選択して、ツールバーの「Copy」
をクリックします。
- 「New copy data job」ダイアログ・ボックスでは、次に説明するように値を指定します。
「General」タブ
- Job name:ジョブに指定された名前。必要に応じて変更できます。
- Job type: この読取り専用フィールドには、ジョブのタイプが示されます。この例では、「Data transfer - copy」です。
- CPU utilization: スライダを使用して、ジョブのCPU使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。高い値に設定すると、ジョブに対するCPU数が増えて、多数のファイルをコピーするときにはパフォーマンスの向上を見込めます。ただし、ジョブに割り当てるCPU数を増やすと、別のタスクに使用可能なクラスタ内のCPU数が少なくなります。
- Memory utilization: スライダを使用して、ジョブのメモリー使用率を指定します。適切なジョブ構成は、クラスタのシェイプに基づいて計算されます。デフォルトでは、30パーセントに設定されています。ジョブに割り当てるメモリーを増やすと、ジョブのパフォーマンスが向上しますが、別のタスクで使用可能な空きメモリーが少なくなります。指定されたメモリーが少なすぎるジョブはクラッシュします。現在使用可能なメモリーよりも多くのメモリーがジョブに割り当てられている場合、そのジョブは要求されたメモリー量が使用可能になるまでPENDING状態のままになります。
- Synchronize destination with sources: このオプションは、すでにコピーされているファイルまたは一部のファイルが再度コピーされないようにソースと宛先を同期する場合に選択します。このチェック・ボックスは、デフォルトで選択解除されています。一般に、宛先の場所にまったく存在していないデータをコピーする場合は、このオプションを選択解除のままにしておくとデータ転送が高速になります。すでに宛先の場所にあるデータをコピーして、その一部のみを更新する場合は、このチェック・ボックスを選択して、新しいデータと更新されたデータのみが検出されて転送されるようにすることをお薦めします。
- Overwrite existing files: このオプションは、ターゲットの宛先にある同じ名前の既存のファイルを上書きする場合に選択します。デフォルトで選択されています。
- Run immediately: このオプションは、今すぐ1回のみジョブを実行する場合に選択します。デフォルトで選択されています。
- Repeated execution: このオプションは、繰返し実行するジョブの時刻と頻度をスケジュールする場合に選択します。簡略化したエントリを指定することも、「Advanced entry」をクリックしてcron式を入力することもできます。
「Advanced」タブ
- Block size: ドロップダウン・リストからHDFSのファイル・チャンク・サイズを選択します。この設定は、Hadoopのデフォルトのブロック・サイズにデフォルト設定されています。
- Number of executors per node: CPUコアの数を指定します。デフォルトは5です。このジョブと並行して別のSparkジョブまたはMapReduceジョブを実行する場合は、コアの数を減らしてパフォーマンスを向上させます。
- Memory allocated for driver: ドロップダウン・リストからメモリー制限を選択します。ドライバに割り当てられるメモリーは、タスクのスケジュールを担当するアプリケーション・ドライバに割り当てられるメモリーです。デフォルトは1GBです。
- Custom logging level: このオプションは、ジョブのアクティビティをログに記録して、ロギング・レベルを選択する場合に選択します。デフォルトのロギング・レベルはINFOです。
- 「Create」をクリックします。
「Data copy job job_number created」ダイアログ・ボックスには、ジョブについての最小限ステータス情報が表示されます。ジョブの完了時に、「View more details」をクリックすると、コンソールの「Jobs」セクションにジョブの詳細が表示されます。このリンクは、ジョブの実行中にクリックすることもできます。
- ジョブの結果を確認します。左側のタブには、各種の情報が表示されます。各タブにあるジョブの
メニューからは、実行中のジョブの停止や削除、完了したジョブの再実行や削除を実行することもできます。
- 「Summary」タブには、ジョブのサマリー情報が表示されます。
- 「Arguments」タブには、ジョブに渡されたパラメータが表示されます。
- 「Job output」タブには、ジョブの出力が表示されます。この出力はダウンロードすることもできます。
「Manage Jobs in Oracle Big Data Managerでのジョブの管理」も参照してください。