dedup

dedupコマンドを使用して、sortコマンドで生成された検索順序に基づいて、フィールド値の同じ組合せを含む結果を削除します。

構文

dedup <dedup_options> <field_name> [, <field_name>, ...]

パラメータ

次の表に、このコマンドで使用されるパラメータとその説明を示します。

パラメータ 説明

field_name

重複の値をチェックする必要があるフィールドを指定します。

dedup_options

構文:

[count = <count>][includenulls = [true|false]] [consecutive = [true|false]]

count: 返される重複の数を指定します。指定しない場合、デフォルト値は1です。

includenulls: dedupフィールドがNULLである結果を含めます。指定されない場合、デフォルト値はfalseです。

consecutive: 連続する値の組合せが重複する結果のみを削除します。指定しない場合、デフォルト値はfalseです。

次の問合せでは、クライアント・ホストの市区町村とIPの一意の組合せごとにログがグループ化され、各グループのコンテンツ・サイズの合計が計算され、各グループがコンテンツ・サイズの降順でソートされ、最後にクライアント・ホストの市区町村の重複行が削除されます。これにより、各クライアント・ホスト市区町村の最大コンテンツ・サイズに対応する行のみが実質的に保持されます。

* | stats sum('Content Size') as 'Content Size' by 'Client Host City', 'Source IP'
    | sort -'Content Size'
    | dedup 'Client Host City'

前述の問合せでは、結果のレコード表に3つの列Client Host CitySource IPおよびContent Sizeがあります。

dedupオプションcount = 2を指定すると、同じ値Client Host Cityを持つ2行が使用可能になります。

dedupオプションincludenulls = trueを指定すると、Client Host City値がNULLの行が含まれます。

dedupオプションconsecutive = trueを指定すると、Client Host Cityの連続する値が同じである行のみが削除されます。