hdfs.sample
HadoopファイルからRメモリー内オブジェクトにデータのランダム・サンプルをコピーします。この関数を使用して、最終的にはHadoopクラスタ上のHDFSデータセット全体で実行するR計算の開発用に、元のHDFSデータの小規模なサンプルをコピーします。
使用方法
hdfs.sample(
dfs.id,
lines,
sep)
引数
- dfs.id
-
HDFS内のファイルの名前。ファイル名には、現在のパスに絶対的または相対的なパスを使用できます。
- lines
-
サンプルとして返す行の数。デフォルト値は1000行です。
- sep
-
Hadoopファイル内のフィールドの区切りに使用される記号。カンマ(,
)がデフォルトの区切りになります。
使用上の注意
R環境でデータが生成されると、列名とデータ型を含むすべてのメタデータが抽出され、すべての属性がリストアされます。R環境でデータが生成されない場合、val1
やval2
などの汎用属性名が割り当てられます。
Hadoopコマンドライン・インタフェースには継承される制限があるため、大規模な入力HDFSファイルを処理する場合、この関数の速度が遅くなる可能性があります。
戻り値
サンプル・データセットを含むdata.frame
オブジェクト。操作が失敗した場合はNULL
。
例
次の例では、ontime_Rファイルの最初の3行を表示します。
R> hdfs.sample("ontime_R", lines=3)
YEAR MONTH MONTH2 DAYOFMONTH DAYOFMONTH2 DAYOFWEEK DEPTIME...
1 2000 12 NA 31 NA 7 1730...
2 2000 12 NA 31 NA 7 1752...
3 2000 12 NA 31 NA 7 1803...