objectif
Identifier rapidement les lignes dupliquées ou uniques dans un gros fichier.
code minimal
# compter occurrences (nécessite tri)
LC_ALL=C sort input.txt | uniq -c | sort -nr | head
utilisation
# lignes dupliquées uniquement
LC_ALL=C sort input.txt | uniq -d > only_dups.txt
# lignes uniques uniquement
LC_ALL=C sort input.txt | uniq -u > only_unique.txt
variante(s) utile(s)
# ignorer la casse (-i) et ne comparer que la 1ère colonne (délimiteur: tab)
cut -f1 input.tsv | LC_ALL=C sort -f | uniq -ci | sort -nr
notes
uniqopère sur des lignes adjacentes → triez avant.- utilisez
LC_ALL=Cpour la performance et la reproductibilité.