機械翻訳について

odcpリファレンス

odcpコマンドライン・ユーティリティには、以下に説明するパラメータとオプションを持つ単一のコマンドodcpがあります。

構文

odcp [options] source1 [source2 ...] destination

パラメータ

パラメータ 説明
source1 [source2 ...]

ソースは、次のどれでもかまいません。

  • 1つ以上の個々のファイル。 ワイルドカード文字を使用できます(globパターン)。

  • 1つ以上のHDFSディレクトリ。

  • 1つ以上のストレージ・コンテナ。

複数のソースを指定する場合、順々にリストします。

odcp source1 source2 source3 destination

複数のソース・ファイルが同じ名前である場合は、なにもコピーされず、odcpから例外がスローされます。

正規表現は、次のパラメータによってサポートされます。

  • --srcPattern pattern

    一致する名前を持つファイルがコピーされます。 このパラメータは、--groupByパラメータを設定した場合、無視されます。

  • --groupBy pattern

    一致する名前を持つファイルがコピーされた後、連結されて1つの出力ファイルになります。 パラメータ--groupName output_file_nameを使用して、連結されたファイルの名前を設定します。

    --groupByパラメータを使用すると、--srcPatternパラメータは無視されます。

destination

宛先は、次のどれでもかまいません。

  • HDFSディレクトリまたはストレージ・コンテナ内の指定されたファイル

    ファイル名を指定しない場合、ソース・ファイルの名前が宛先のコピー済ファイルに使用されます。 ただし、同じ名前を持つファイルが上書きされないように、宛先で別のファイル名を指定できます。

  • HDFSディレクトリ

  • ストレージ・コンテナ

書式は次のとおりです。

  • HDFSの場合:

    hdfs:///path/[file]

    例: hdfs:///user/company/data.raw

    or

    hdfs://[host:port]/path/[file]

    例: hdfs://192.0.2.0:22/user/company/data.raw

  • Oracle Storage Cloud Serviceの場合:

    swift://container.provider/[file]

    where

    • containerは、Oracle Storage Cloud Serviceインスタンス内のコンテナ名です。

    • providerは、インスタンスにアクセスするための資格証明の別名となるプロバイダ名です。 「クラスタへのストレージ資格証明の登録」を参照してください。

    例: swift://feeds.BDCS/stream-061016-1827-534

他のストレージ・タイプを示す例については、「odcpでサポートされているストレージのソースとターゲット」を参照してください。

オプション

オプション 説明

-b

--block-size

出力先ファイルのパーツ・サイズ(バイト単位)。

  • デフォルト= 134217728

  • 最小= 1048576

  • 最大= 2147483647

partSizeblockSizeで除算した後の余りはゼロに等しくなければならない。

-c

--concat

ファイル・チャンクを連結します(デフォルト)。

--executor-cores

エグゼキュータ・コアの数を指定します。

デフォルト値は5です。

--executor-memory

エグゼキュータ・メモリー制限(GB)を指定します。

デフォルト値は40 GBです。

--extra-conf

追加の構成オプションを指定します。 例:

--extra-conf spark.kryoserializer.buffer.max=128m

--groupBy

ソース・ファイル名を正規表現と照合して、destinationファイルに連結するファイルを指定します。

-h

--help

このコマンドのヘルプを表示します。

--krb-keytab

Kerberosプリンシパルのkeytabファイルへのフルパス。 (Kerberos対応のSpark環境でのみ使用してください)。

--krb-principal

Kerberosプリンシパル。 (Kerberos対応のSpark環境でのみ使用してください)。

-n

--no-clobber

既存のファイルを上書きしないでください。

--non-recursive

再帰的にファイルをコピーしないでください。

--num-executors

エグゼキュータの数を指定します。 デフォルト値は、3エグゼキュータです。

--progress

データ転送の進行状況を表示します。

--retry

直前の転送に失敗したか、中断した場合は再試行してください。

--partSize

出力先ファイルのパーツ・サイズ(バイト単位)。

  • デフォルト= 536870912

  • 最小= 1048576

  • 最大= 2147483647

partSizeblockSizeで除算した後の余りはゼロに等しくなければならない。

--spark-home 

Apache Sparkインストールを含むディレクトリへのパス。 何も指定されていない場合、odcp/opt/cloudera directoryでそれを見つけようとします。

--srcPattern

ソース名を正規表現と照合してソースをフィルタリングします。

--groupByパラメータを使用すると、--srcPatternは無視されます。

--sync

destrinationsourceを同期させます。

-V

デバッギング用に冗長モードを有効にします。