Hi all,
folgendes problem:
ich habe eine textdatei, die ist alphabetisch sortiert,
aber sie enthällt einige duplicates. Beispiel :
apfel
banane
banane
birne
erdbeere
erdbeere
zitrone
ich könnte ja mit sort -u die duplicate entfernen,
jedoch ich will mir NUR die duplicate anzeigen lassen,
d.h. ich will aus obiger datei folgende textdatei generieren:
banane
erdbeere
ist das mit standard shell tools möglich ??
Der eigentliche Hintergrund ist ein anderer:
ich habe ein verzeichniss mit vielen unterverzeichnissen,
in jedem unterverzeichniss sind teils unterschiedliche dateien drin
jedoch manche dateien sind in mehreren unterverzeichnissen verteilt
und identisch in filenamen und dateigrösse.
Das ganze belegt (entpackt) 18 Gb (gepackt ca 10).
Die duplicate sind so zahlreich, dass ich die komplette grösse
auf die Hälfte reduzieren könnte, wenn ich jedes duplicat
identifizieren könnte und je eine Kopie "echt" speichere
und in allen anderen (unter-)ordnern "nur" einen symbolischen link
zu der quelldatei erzeuge.
Wenn ich das mache und obendrein gzippe oder bzippe, dann spare
ich damit wirklich *VIEL* speicherplatz.
Es handelt sich um 4083 Dateien, wobei die duplicate mitgezählt sind,
welche ich mir per "ls -alR" in eine Textdatei gespeichert habe.
Ich möchte die duplicate nicht "per Hand" herauslesen,
daher de obige Frage, aber wenn jemand zum Hintergrund (unterer Teil)
schon eine Lösung wüsste nehm ich die auch gerne an, weil dann
erübrigt sich der "Textanzeige" part.
Ich hoffe ich habe das Problem klar geschildert.
Danke für eure *Hilfe* im Vorraus.
Grüsse.
Lesezeichen