hdfs.attach

HDFSの非構造化データ・ファイルのデータを、Oracle R Advanced Analytics for Hadoopフレームワークにコピーします。デフォルトでは、HDFSのデータ・ファイルはコネクタで表示されません。ただし、データ・ファイルの名前がわかっている場合、この関数を使用して名前をOracle R Advanced Analytics for Hadoopネームスペースにアタッチします。

使用方法

hdfs.attach(
        dfs.name,
        force)

引数

dfs.name

HDFS内のファイルの名前。

force

関数がファイルの構造と各列のデータ型を検出するかどうかを制御します。

カンマ区切り(CSV)ファイルの場合はFALSE (デフォルト)。ファイルに列の名前とデータ型を識別するメタデータがない場合、関数がデータをサンプリングしてデータ型(数値または文字列)を導出します。その後、適切なメタデータを使用してファイルを再作成します。

CVS以外のファイル(バイナリ・ファイルなど)の場合はTRUE。この設定により、関数はメタデータを検出しようとしません。かわりに、ファイルを単にアタッチします。

使用上の注意

この関数を使用して、データ・フレームのアタッチと同様にCSVファイルをR環境にアタッチします。

Oracle R Advanced Analytics for Hadoopでは、アタッチされたCVS以外のファイルの処理はサポートしません。ただし、CSV以外のファイルをアタッチし、そのファイルをローカル・コンピュータにダウンロードして必要に応じて使用できます。あるいは、Hadoopアプリケーションへの入力として使用するためにファイルをアタッチできます。

Hadoopコマンドライン・インタフェースには継承される制限があるため、大規模な入力HDFSファイルを処理する場合、この関数の速度が遅くなる可能性があります。

戻り値

HDFS内のファイルのオブジェクトID。操作が失敗した場合はNULL。