プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

属性値の集計について

操作(合計、平均、最小/最大など)を1つ以上の属性に適用し、導出された結果を属性ごとにグループ化することにより、属性値を集計します。

たとえば、Standard Cost属性の平均を集計し、Product Categoryで結果をグループ化できます。 その場合、特定の製品カテゴリの各品目の平均原価を取得します。

また、Standard Cost属性の最小値と最大値を集計して、Product Categoryで結果をグループ化することもできます。 その場合、カテゴリ内の各品目の最低原価と、カテゴリ内の各品目の最高原価を取得します。

属性値を集計することによって、より詳細な調査のために新規の導出属性にデータを集計できます。 また、場合によっては、あるデータ・セットを別のデータ・セットに結合するなどの追加操作を実行する前に、新しい導出属性値が使用されます。

一部の属性には、集計に使用できないデータ型があります。 具体的には、複数割当およびジオコードの属性は、「集計」エディタには使用不可として表示されます。

一部の演算子は、特定のデータ型の属性のみを変換できます。 averagesumstandard devvarianceの各演算子は、数値属性でのみ使用できます。 min演算子とmax演算子は、数値の属性や日時の属性で使用できます。

集計演算子

サポートされている集計演算子は、sumaverageminmaxrecords with values、およびunique valuesです。 これらの演算子の他に、df.advancedSparkAggregationsEnabledプロパティが「コントロール・パネル」 > 「Studio設定」ページでtrueに設定されている場合はsetvariance、およびstandard devもあります。

表19-1 集計演算子

演算子 説明
sum 属性のすべての値の合計を検索します。
average 属性のすべての値の平均を検索します。
min 属性のすべての値の最小値を検索します。
max 属性内のすべての値の最大値を検索します。
records with values その属性で値を持つレコードの数を検索します。
unique values 属性内の一意の値の数を検索します。
set オプションで有効です。 属性内で一致する値のセットを検索します。
variance オプションで有効です。 値のセット間の差異を検索します。
standard dev オプションで有効です。 属性値の標準偏差が検索されます。

データ・セット更新との相互作用

集計属性は、ある時点からの値に基づいて計算されます。 集計を含む変換スクリプトを実行し、データ・セットを再ロードまたは更新した場合、更新されたデータを使用して集計を含む変換スクリプトを再実行する必要があります。 つまり、集計属性の値は集計中に縮小されているため、集計解除された値に基づいて後続の更新を実行する必要があります。