属性値の集計について

演算(sum、average、min/maxなど)を1つ以上の属性に適用し、導出された結果を属性別にグループ化することによって、属性値を集計します。

たとえば、Standard Cost属性の平均を集計し、その結果をProduct Category別にグループ化できます。この場合、特定の製品カテゴリに含まれる各項目の平均費用を取得できます。

または、Standard Cost属性の最小値および最大値を集計し、その結果をProduct Category別にグループ化できます。この場合、カテゴリに含まれる各項目の最小費用およびカテゴリに含まれる各項目の最大費用を取得できます。

属性値の集計は、さらに調査するためにデータを新しく導出された属性に統合する手段を提供します。一部の例では、新しく導出された属性値が、あるデータ・セットを別のデータ・セットと結合するなどの追加操作を実行する前に多くの場合使用されます。

一部の属性には、集計を使用不可にするデータ型があります。具体的には、複数割当のジオコード属性は、「集計」エディタで使用不可と表示されます。

一部の演算子は、特定のデータ型の属性のみを変換できます。averagesumstandard devおよびvariance演算子は数値属性でのみ使用できます。minおよびmax演算子は、数値属性および日時属性で使用できます。

集計演算子

サポートされている集計演算子は、sumaverageminmaxrecords with valuesおよびunique valuesです。これらの演算子に加え、「コントロール・パネル」「Studio設定」ページでdf.advancedSparkAggregationsEnabledプロパティがtrueに設定されている場合、setvarianceおよびstandard devがあることがあります。
表1。集計演算子
演算子 説明
sum 属性内のすべての値の合計を求めます。
average 属性内のすべての値の平均を求めます。
min 属性内のすべての値の最小値を求めます。
max 属性内のすべての値の最大値を求めます。
records with values 属性内の値のあるレコード数を求めます。
unique values 属性内の一意の値の数を求めます。
set オプションで有効。属性内の一致した値のセットを求めます。
variance オプションで有効。セットの値の間の分散を求めます。
standard dev オプションで有効。属性値の標準偏差を求めます。

データ・セットの更新との相互作用

集計済属性は、ある時点からの値に基づいて計算されます。集計で変換スクリプトを実行してから、データ・セットをリロードまたは更新する場合、更新済データを使用する集計で変換スクリプトを再実行する必要があります。つまり、集計済属性の値は集計中は閉じられており、後続の更新を実行するには集計されていない値が必要です。