odcpリファレンス

機械翻訳について

odcpリファレンス

odcpコマンドライン・ユーティリティには、以下に説明するパラメータとオプションを持つ単一のコマンドodcpがあります。

構文

odcp [options] source1 [source2 ...] destination

パラメータ

パラメータ説明

パラメータ	説明
`source1` `[source2` ...]	ソースは、次のどれでもかまいません。 1つ以上の個々のファイル。ワイルドカード文字を使用できます(globパターン)。 1つ以上のHDFSディレクトリ。 1つ以上のストレージ・コンテナ。複数のソースを指定する場合、順々にリストします。 `odcp source1 source2 source3 destination` 複数のソース・ファイルが同じ名前である場合は、なにもコピーされず、`odcp`から例外がスローされます。正規表現は、次のパラメータによってサポートされます。 `--srcPattern pattern` 一致する名前を持つファイルがコピーされます。このパラメータは、`--groupBy`パラメータを設定した場合、無視されます。 `--groupBy pattern` 一致する名前を持つファイルがコピーされた後、連結されて1つの出力ファイルになります。パラメータ`--groupName output_file_name`を使用して、連結されたファイルの名前を設定します。 `--groupBy`パラメータを使用すると、`--srcPattern`パラメータは無視されます。
`destination`	宛先は、次のどれでもかまいません。 HDFSディレクトリまたはストレージ・コンテナ内の指定されたファイルファイル名を指定しない場合、ソース・ファイルの名前が宛先のコピー済ファイルに使用されます。ただし、同じ名前を持つファイルが上書きされないように、宛先で別のファイル名を指定できます。 HDFSディレクトリストレージ・コンテナ

source1 [source2 ...]

ソースは、次のどれでもかまいません。

1つ以上の個々のファイル。ワイルドカード文字を使用できます(globパターン)。
1つ以上のHDFSディレクトリ。
1つ以上のストレージ・コンテナ。

複数のソースを指定する場合、順々にリストします。

odcp source1 source2 source3 destination

複数のソース・ファイルが同じ名前である場合は、なにもコピーされず、odcpから例外がスローされます。

正規表現は、次のパラメータによってサポートされます。

--srcPattern pattern

一致する名前を持つファイルがコピーされます。このパラメータは、--groupByパラメータを設定した場合、無視されます。
--groupBy pattern

一致する名前を持つファイルがコピーされた後、連結されて1つの出力ファイルになります。パラメータ--groupName output_file_nameを使用して、連結されたファイルの名前を設定します。

--groupByパラメータを使用すると、--srcPatternパラメータは無視されます。

destination

宛先は、次のどれでもかまいません。

HDFSディレクトリまたはストレージ・コンテナ内の指定されたファイル

ファイル名を指定しない場合、ソース・ファイルの名前が宛先のコピー済ファイルに使用されます。ただし、同じ名前を持つファイルが上書きされないように、宛先で別のファイル名を指定できます。
HDFSディレクトリ
ストレージ・コンテナ

書式は次のとおりです。

HDFSの場合:

hdfs:///path/[file]

例: hdfs:///user/company/data.raw

or

hdfs://[host:port]/path/[file]

例: hdfs://192.0.2.0:22/user/company/data.raw
Oracle Storage Cloud Serviceの場合:

swift://container.provider/[file]

where
- containerは、Oracle Storage Cloud Serviceインスタンス内のコンテナ名です。
- providerは、インスタンスにアクセスするための資格証明の別名となるプロバイダ名です。「クラスタへのストレージ資格証明の登録」を参照してください。
例: swift://feeds.BDCS/stream-061016-1827-534

他のストレージ・タイプを示す例については、「odcpでサポートされているストレージのソースとターゲット」を参照してください。

オプション

オプション	説明
`-b` `--block-size`	出力先ファイルのパーツ・サイズ(バイト単位)。デフォルト= `134217728` 最小= `1048576` 最大= `2147483647` `partSize`を`blockSize`で除算した後の余りはゼロに等しくなければならない。
`-c` `--concat`	ファイル・チャンクを連結します(デフォルト)。
`--executor-cores`	エグゼキュータ・コアの数を指定します。デフォルト値は`5`です。
`--executor-memory`	エグゼキュータ・メモリー制限(GB)を指定します。デフォルト値は`40 GB`です。
`--extra-conf`	追加の構成オプションを指定します。例: `--extra-conf spark.kryoserializer.buffer.max=128m`
`--groupBy`	ソース・ファイル名を正規表現と照合して、`destination`ファイルに連結するファイルを指定します。
`-h` `--help`	このコマンドのヘルプを表示します。
`--krb-keytab`	Kerberosプリンシパルのkeytabファイルへのフルパス。 (Kerberos対応のSpark環境でのみ使用してください)。
`--krb-principal`	Kerberosプリンシパル。 (Kerberos対応のSpark環境でのみ使用してください)。
`-n` `--no-clobber`	既存のファイルを上書きしないでください。
`--non-recursive`	再帰的にファイルをコピーしないでください。
`--num-executors`	エグゼキュータの数を指定します。デフォルト値は、`3`エグゼキュータです。
`--progress`	データ転送の進行状況を表示します。
`--retry`	直前の転送に失敗したか、中断した場合は再試行してください。
`--partSize`	出力先ファイルのパーツ・サイズ(バイト単位)。デフォルト= `536870912` 最小= `1048576` 最大= `2147483647` `partSize`を`blockSize`で除算した後の余りはゼロに等しくなければならない。
`--spark-home`	Apache Sparkインストールを含むディレクトリへのパス。何も指定されていない場合、`odcp`は`/opt/cloudera directory`でそれを見つけようとします。
`--srcPattern`	ソース名を正規表現と照合してソースをフィルタリングします。 `--groupBy`パラメータを使用すると、`--srcPattern`は無視されます。
`--sync`	`destrination`と`source`を同期させます。
`-V`	デバッギング用に冗長モードを有効にします。