5.2.9 ore.summaryによるデータの集計
ore.summary
関数は、記述統計を計算し、柔軟な行の集計とともに、ore.frame
内の列の広範な分析をサポートします。
ore.summary
関数では、次の統計がサポートされています。
-
平均、最小、最大、モード、欠損値の数、合計、加重和
-
二乗の補正および未補正合計、値の範囲、
stddev
、stderr
、variance
-
母平均が0であるという仮定をテストするためのt検定
-
尖度、歪度、変動係数
-
分位: p1、p5、p10、p25、p50、p75、p90、p95、p99、qrange
-
平均の片側および両側信頼限界:
clm
、rclm
、lclm
-
極値のタグ付け
ore.summary
関数は、同じ結果を生成するSQL問合せと比べて比較的単純な構文を提供します。
ore.summary
関数は、group.by
引数が使用されている場合を除くすべての場合にore.frame
を返します。group.by
引数が使用されている場合、ore.summary
は、階層ごとにore.frame
を1つずつore.frame
オブジェクトのリストを返します。
この関数の引数の詳細は、help(ore.summary)
をコールしてください。
例5-6 デフォルトの統計の計算
この例では、列AGEおよびCLASSの平均値、最小値および最大値を計算し、GENDER列をロールアップ(集計)します。
ore.summary(NARROW, class = 'GENDER', var = c('AGE', 'CLASS'), order = 'freq')
例5-7 歪度およびt-検定の可能性の計算
この例では、AGEの歪度と、CLASSのスチューデントのt分布の可能性を計算します。
ore.summary(NARROW, class = 'GENDER', var = c('AGE', 'CLASS'), c('skew', 'probt'))
例5-8 重み付け合計の計算
この例では、YRS_RESIDENCEを重みとしてGENDERによって集計されたAGEの重み付けされた合計を計算します。つまりsum(var*weight)
を計算します。
ore.summary(NARROW, class = 'GENDER', var = 'AGE', stats = 'sum', weight = 'YRS_RESIDENCE')
例5-9 2つの列によるグループ化
この例では、GENDERおよびMARITAL_STATUSでCLASSをグループ化します。
ore.summary(NARROW, class = c('GENDER', 'MARITAL_STATUS'), var = 'CLASS', ways = 1)
例5-10 すべての適用可能な方法でのグループ化
この例では、GENDERおよびMARITAL_STATUSによってすべての適用可能な方法でCLASSをグループ化します。
ore.summary(NARROW, class = c('GENDER', 'MARITAL_STATUS'), var = 'CLASS', ways = 0:length(NARROW['CLASS']))
例5-11 ore.summaryを使用した列の最大値の取得
この例では、IRIS ore.frame
内のSepal.Length列とSepal.Width列の最大値および対応する種をリストします。
IRIS <- ore.push(iris)
ore.summary(IRIS, c("Sepal.Length", "Sepal.Width"),
"max",
maxid=c(Sepal.Length="Species", Sepal.Width="Species"))
この例のリスト
R> IRIS <- ore.push(iris)
R> ore.summary(IRIS, c("Sepal.Length", "Sepal.Width"),
+ "max",
+ maxid=c(Sepal.Length="Species", Sepal.Width="Species"))
FREQ MAX(Sepal.Length) MAX(Sepal.Width) MAXID(Sepal.Length->Species) MAXID(Sepal.Width->Species)
1 150 7.9 4.4 virginica setosa
Warning message:
ORE object has no unique key - using random order
親トピック: データの探索