uniq: détecter uniques et doublons efficacement

Compter, extraire seulement doublons ou uniques après un tri préalable robuste.

16 août 2025

objectif

Identifier rapidement les lignes dupliquées ou uniques dans un gros fichier.

code minimal

# compter occurrences (nécessite tri)
LC_ALL=C sort input.txt | uniq -c | sort -nr | head

utilisation

# lignes dupliquées uniquement
LC_ALL=C sort input.txt | uniq -d > only_dups.txt

# lignes uniques uniquement
LC_ALL=C sort input.txt | uniq -u > only_unique.txt

variante(s) utile(s)

# ignorer la casse (-i) et ne comparer que la 1ère colonne (délimiteur: tab)
cut -f1 input.tsv | LC_ALL=C sort -f | uniq -ci | sort -nr

notes

uniq opère sur des lignes adjacentes → triez avant.
utilisez LC_ALL=C pour la performance et la reproductibilité.