← retour aux snippets

uniq: détecter uniques et doublons efficacement

Compter, extraire seulement doublons ou uniques après un tri préalable robuste.

objectif

Identifier rapidement les lignes dupliquées ou uniques dans un gros fichier.

code minimal

# compter occurrences (nécessite tri)
LC_ALL=C sort input.txt | uniq -c | sort -nr | head

utilisation

# lignes dupliquées uniquement
LC_ALL=C sort input.txt | uniq -d > only_dups.txt

# lignes uniques uniquement
LC_ALL=C sort input.txt | uniq -u > only_unique.txt

variante(s) utile(s)

# ignorer la casse (-i) et ne comparer que la 1ère colonne (délimiteur: tab)
cut -f1 input.tsv | LC_ALL=C sort -f | uniq -ci | sort -nr

notes

  • uniq opère sur des lignes adjacentes → triez avant.
  • utilisez LC_ALL=C pour la performance et la reproductibilité.