Bash Script: подсчет уникальных строк в файле

Автор admin На чтение 2 мин Просмотров 186 Опубликовано 4 сентября, 2024

Вопрос: Ситуация: У меня есть большой файл (миллионы строк), содержащий IP-адреса и порты из нескольких сетевых захватов, один ip/порт на строку. Строки имеют такой формат: ip.ad.dre.ss[:port] Желаемый результат: Существует запись для каждого пакета, который я получил при регистрации, поэтому существует много дубликатов адресов. Я хотел бы иметь возможность запускать это через оболочку script, которая сможет

Вопрос: Ситуация:

У меня есть большой файл (миллионы строк), содержащий IP-адреса и порты из нескольких сетевых захватов, один ip/порт на строку. Строки имеют такой формат:

ip.ad.dre.ss[:port] Желаемый результат:

Существует запись для каждого пакета, который я получил при регистрации, поэтому существует много дубликатов адресов. Я хотел бы иметь возможность запускать это через оболочку script, которая сможет свести ее к строкам в формате

ip.ad.dre.ss[:port] count

где count – количество вхождений этого конкретного адреса (и порта). Никакой специальной работы не нужно делать, обрабатывать разные порты как разные адреса.

До сих пор я использую эту команду для очистки всех IP-адресов из файла журнала:

grep -o -E [0-9]+.[0-9]+.[0-9]+.[0-9]+(:[0-9]+)? ip_traffic-1.log > ips.txt

Из этого я могу использовать довольно простое регулярное выражение, чтобы очистить все ip-адреса, которые были отправлены по моему адресу (что меня не волнует)

Затем я могу использовать следующее, чтобы извлечь уникальные записи:

sort -u ips.txt > intermediate.txt

Я не знаю, как я могу как-то сгруппировать число строк.

Лучший ответ:

Вы можете использовать команду uniq, чтобы получить количество отсортированных повторяющихся строк:

sort ips.txt | uniq -c

Чтобы получить самые частые результаты на вершине (спасибо Питеру Джарику):

sort ips.txt | uniq -c | sort -bgr Ответ №1

Для подсчета общего количества уникальных строк (т.е. без учета дублирующих строк) мы можем использовать uniq или Awk с wc:

sort ips.txt | uniq | wc -l awk ‘!seen[$0]++’ ips.txt | wc -l

Awk-массивы являются ассоциативными, поэтому они могут работать немного быстрее, чем сортировка.

Генерация текстового файла:

$ for i in {1..100000}; do echo $RANDOM; done > random.txt $ time sort random.txt | uniq | wc -l 31175 real 0m1.193s user 0m0.701s sys 0m0.388s $ time awk ‘!seen[$0]++’ random.txt | wc -l 31175 real 0m0.675s user 0m0.108s sys 0m0.171s