dedup
Use o comando dedup
para remover resultados que contenham combinação idêntica de valores de campo com base na ordem de pesquisa gerada por meio do comando sort
.
Sintaxe
dedup <dedup_options> <field_name> [, <field_name>, ...]
Parâmetros
A tabela a seguir lista os parâmetros usados nesse comando, com suas descrições.
Parâmetro | Descrição |
---|---|
|
Especifique o campo cujos valores devem ser verificados em busca de duplicidades. |
|
Sintaxe: [count = <count>][includenulls = [true|false]] [consecutive = [true|false]]
|
A consulta a seguir agrupa logs por cada combinação exclusiva de cidade e IP do host do cliente, calcula a soma do tamanho do conteúdo para cada grupo, classifica cada grupo por ordem decrescente do tamanho do conteúdo e, finalmente, remove linhas duplicadas para uma cidade do host do cliente. Isso efetivamente retém apenas as linhas que correspondem ao tamanho de conteúdo mais alto para cada cidade host do cliente:
* | stats sum('Content Size') as 'Content Size' by 'Client Host City', 'Source IP'
| sort -'Content Size'
| dedup 'Client Host City'
Com a consulta acima, a tabela de registros resultante tem três colunas Client Host City
, Source IP
e Content Size
.
Se você especificar a opção dedup
count = 2
, 2 linhas que têm o mesmo valor de Client Host City
estarão disponíveis.
Se você especificar a opção dedup
includenulls = true
, essas linhas serão incluídas onde o valor Client Host City
é nulo.
Se você especificar a opção dedup
consecutive = true
, somente essas linhas serão removidas onde os valores consecutivos de Client Host City
forem os mesmos.