hdfs.sample

HadoopファイルからRメモリー内オブジェクトにデータのランダム・サンプルをコピーします。この関数を使用して、最終的にはHadoopクラスタ上のHDFSデータセット全体で実行するR計算の開発用に、元のHDFSデータの小規模なサンプルをコピーします。

使用方法

hdfs.sample(
        dfs.id,
        lines,
        sep)

引数

dfs.id: HDFS内のファイルの名前。ファイル名には、現在のパスに絶対的または相対的なパスを使用できます。
lines: サンプルとして返す行の数。デフォルト値は1000行です。
sep: Hadoopファイル内のフィールドの区切りに使用される記号。カンマ(,)がデフォルトの区切りになります。

使用上の注意

R環境でデータが生成されると、列名とデータ型を含むすべてのメタデータが抽出され、すべての属性がリストアされます。R環境でデータが生成されない場合、val1やval2などの汎用属性名が割り当てられます。

Hadoopコマンドライン・インタフェースには継承される制限があるため、大規模な入力HDFSファイルを処理する場合、この関数の速度が遅くなる可能性があります。

戻り値

サンプル・データセットを含むdata.frameオブジェクト。操作が失敗した場合はNULL。

例

次の例では、ontime_Rファイルの最初の3行を表示します。

R> hdfs.sample("ontime_R", lines=3)
  YEAR MONTH MONTH2 DAYOFMONTH DAYOFMONTH2 DAYOFWEEK DEPTIME...
1 2000    12     NA         31          NA         7     1730...
2 2000    12     NA         31          NA         7     1752...
3 2000    12     NA         31          NA         7     1803...