Mehrere Zeilen (unterschiedlicher Wert) aus einer Liste löschen.

**CherryWine** · 10.09.15, 10:13

Guten Tag liebe Linux Gemeinde.

Ich stehe vor folgendem Problem:

Liste A (1,6 Millionen Zeilen)
Inhalt (Abgeändert)
AB@,AB1,AB2
AC@,AC1,AC2
AD@,AD1,AD2
...
...
...

Liste B (60 Tausend Zeilen)
Inhalt (Abgeändert)
AB@
AS@
AL@
...
...
...

Ich möchte ganz gerne das aus Liste A die Zeilen mit den Werten aus Liste B gelöscht werden.
Meine Versuche sahen wie folgt aus (Bitte nicht den Kopf abreissen ich bin kein Experte):

Code:

for i in $(<ListeB); do

cat ListeA | grep -v "$i" > tmp
#cat ListeA | sed "/$i/d" > tmp
mv tmp ListeA

done

Dadurch das beide Listen relativ groß sind habe ich natürlich total viele Schreibzugriffe und mein kleiner Code oben braucht auch extrems lange (10 Zeilen in 30-40 Sekunden)

Kann mir jemand helfen dieses Problem Resourcen freundlicher und schneller zu lösen ?

Vielen Dank im Vorraus.

Gruß

**marce** · 10.09.15, 10:21

Welche Ressourcen willst Du denn schonen? Speicher oder HD-Zugrffe?

Im Falle von (1) - sed kann das recht problemlos, im Falle von 2 z.B. Datei komplett in ein Array einlesen die Werte aus der 2. Datei rauswerfen. Oder in eine DB, ...

Evtl. geht's auch direkt über grep, indem Du die 2. Datei als Pattern-Liste übergibst (weiß aus dem Kopf gerade nicht, wie grep da reagiert bei -v)

edit: jepp, müsste funktionieren. grep kann's

**CherryWine** · 10.09.15, 10:22

Wenn ich es mir recht überlege ist es eigentlich sinnvoller die HD-Zugriffe zu schonen.
Gruß

**CherryWine** · 10.09.15, 10:32

Kannst du mir bitte die Beispiele nennen ?
Immer wenn ich mit Arrays rum spiele mache ich nur Murx :/ ..

**fork** · 10.09.15, 11:13

Mal ein Schuss aus der Hüfte:

Code:

grep -vf liste-b.txt liste-a.txt >liste-c.txt

Evtl würde ich Liste-B so abändern, dass da nicht AB@ drin steht sondern ^AB@. Damit das Muster auch wirklich am Zeilenanfang gesucht wird.

**BetterWorld** · 10.09.15, 14:11

Code:

f1=deineDatei1
f2=deineDatei2

awk 'BEGIN{ FS="," ;  i=0; printYN="Y"
             while ( ( getline temp < "'$f2'" ) >0)
                {array[i++]=temp}
          }
          { 
            for (i in array){
                if ( array[i] ~ $1){
                     printYN = "N" 
                }
            }
            if ( printYN == "Y" ) {
                 print $0
            }
            i=0
            printYN = "Y"
           }
    ' $f1

Hier werden die Dateien nur zweimal gelesen.
Einmal deine Datei2 im BEGIN Block, wovon jede Zeile in ein array geschrieben wird.

Beim Lesen von Datei2 wird in einem Loop über das array nur verglichen.

**CherryWine** · 10.09.15, 17:15

Zitat von fork

Mal ein Schuss aus der Hüfte:

Code:

grep -vf liste-b.txt liste-a.txt >liste-c.txt

Der Befehl funktioniert natürlich, erst einmal vielen Dank dafür.
Das Problem was hier nun besteht ist das mein Server den Prozess nach ein paar Minuten einfach killt.

**CherryWine** · 10.09.15, 17:20

Zitat von BetterWorld

Code:

f1=deineDatei1
f2=deineDatei2

awk 'BEGIN{ FS="," ;  i=0; printYN="Y"
             while ( ( getline temp < "'$f2'" ) >0)
                {array[i++]=temp}
          }
          { 
            for (i in array){
                if ( array[i] ~ $1){
                     printYN = "N" 
                }
            }
            if ( printYN == "Y" ) {
                 print $0
            }
            i=0
            printYN = "Y"
           }
    ' $f1

Hier werden die Dateien nur zweimal gelesen.
Einmal deine Datei2 im BEGIN Block, wovon jede Zeile in ein array geschrieben wird.

Beim Lesen von Datei2 wird in einem Loop über das array nur verglichen.

Also ich habe es jetzt mit zwei Testfiles versucht aber irgendwie wird aus der Liste in der gelöscht werden soll nichts gelöscht(Ausgabe).
Ich habe mal einfach eine DateiA mit dem Inhalt:

ich,bin,blau
du,bist,schlau
wir,sind,klasse

erstellt und eine DateiB mit dem Inhalt:

klasse

Die Zeile "wir,sind,klasse" wird in der Ausgabe mit ausgegeben was aber eigentlich nicht geschehen sollte da diese Zeile gelöscht werden soll bzw nicht mit ausgegeben werden soll wie es grep -v macht.
Leider schreibt dein Script hier auch nicht das Ergebniss in eine DateiC.

Gruß

**BetterWorld** · 10.09.15, 17:39

Nun ja. Bei deinem ersten Post bezog sich in Datei 2 der Suchbegriff auf Feld #1.
Deshalb

Code:

if ( array[i] ~ $1) {

wird auch mit Feld #1 verglichen.

Jetzt steht der Begriff aber in Feld #3. Die Zeile müsste jetzt lauten:

Code:

if ( array[i] ~ $3) {

Oder, wenn es wirklich das letzte Feld ist, besser:

Code:

if ( array[i] ~ $NF) {

**CherryWine** · 10.09.15, 17:41

Zitat von BetterWorld

Nun ja. Bei deinem ersten Post bezog sich in Datei 2 der Suchbegriff auf Feld #1.
Deshalb

Code:

if ( array[i] ~ $1) {

wird auch mit Feld #1 verglichen.

Jetzt steht der Begriff aber in Feld #3. Die Zeile müsste jetzt lauten:

Code:

if ( array[i] ~ $3) {

Oder, wenn es wirklich das letzte Feld ist, besser:

Code:

if ( array[i] ~ $NF) {

Entschuldige mein Beipiel war fehlerhaft es bezieht sich auch weiterhin auf Feld 1.
Aber leider wird die Zeile dennoch mit ausgegeben.

Gruß

**CherryWine** · 10.09.15, 17:53

Zitat von BetterWorld

Nun ja. Bei deinem ersten Post bezog sich in Datei 2 der Suchbegriff auf Feld #1.
Deshalb

Code:

if ( array[i] ~ $1) {

wird auch mit Feld #1 verglichen.

Jetzt steht der Begriff aber in Feld #3. Die Zeile müsste jetzt lauten:

Code:

if ( array[i] ~ $3) {

Oder, wenn es wirklich das letzte Feld ist, besser:

Code:

if ( array[i] ~ $NF) {

Entschuldige mein Beipiel war fehlerhaft es bezieht sich auch weiterhin auf Feld 1.
Aber leider wird die Zeile dennoch mit ausgegeben.

Gruß

Edit:

Code:

f1=1.txt
f2=2.txt
f3=3.txt

awk 'BEGIN{ FS="," ;  i=0; printYN="Y"
             while ( ( getline temp < "'$f2'" ) >0)
                {array[i++]=temp}
          }
          { 
            for (i in array){
                if ( array[i] ~ $1){
                     printYN = "N" 
                }
            }
            if ( printYN == "Y" ) {
                 print $0  
            }
            i=0
            printYN = "Y"
           }
    'echo $f1 > $f3
echo > $f1
cat $f3 > $f1

Dank eines Bekannten habe ich nun die Lösung die funktioniert.
Ich bedanke mich dennoch bei allen hier und würde mich sehr über weitere Lösungsvorschläge freuen.

**fork** · 10.09.15, 18:02

Der Befehl funktioniert natürlich, erst einmal vielen Dank dafür.
Das Problem was hier nun besteht ist das mein Server den Prozess nach ein paar Minuten einfach killt.

Wie meinst Du das? Der Server killt den Prozess? Ist es nicht umgekehrt - der Prozess zieht so viel Performance, dass der Server nicht mehr erreichbar ist?

Ich würde mal sagen, dass das schon recht performant sein dürfte. Eine erhebliche Verbesserung wird dann nochmal die Verwendung von fgrep bringen. Allerdings sind 60.000 Zeilen mit Mustern schon ein Wort. 1,6 Mio x 60.000 = ganz schön viele Lesezugriffe.

Eine Optimierung dürfte sein, beide Dateien zu sortieren und dann immer den kleinsten Wert zu lesen.
Mal etwas Pseudocode:

Code:

if key_von_datei_1.6m < key_von_datei_60k; 
    Gebe Wert aus
    lese_datei_1.6m
else
   if key_vn_datei_1.6m > key_von_datei_60k;
      Gebe Wert aus
      lese_datei_60k
   else
        # keys sind gleich --> wert auslassen
        lese_datei_1.6m
   fi
fi

Anmerkung: Die AWK-Variante hat das dann zwar im Speicher, aber vergleicht immer noch 60.000 Mal für jeden Datensatz.
Diese Variante würde insgesamt relativ wenige Vergleiche durchführen.

Ansonsten kann man das ganze auch Beschleunigen, wenn man eine oder beide Dateien einfach nach /dev/shm (=RAM. Vorsicht: Strom weg -> Dateien weg!) kopiert und dort den fgrep ausführt - genügend Arbeitsspeicher mal vorausgesetzt.

Btw: Kannst du mal ein paar Zahlen nennen?

Welche Dateigrössen haben die Dateien(MB)?
Wie lange dauert die derzeitige awk-Lösung?

**BetterWorld** · 10.09.15, 18:22

Zitat von CherryWine

Entschuldige mein Beipiel war fehlerhaft es bezieht sich auch weiterhin auf Feld 1.
Aber leider wird die Zeile dennoch mit ausgegeben.

Code:

...
...
            i=0
            printYN = "Y"
           }
    'echo $f1 > $f3
echo > $f1
cat $f3 > $f1

Dank eines Bekannten habe ich nun die Lösung die funktioniert.
Ich bedanke mich dennoch bei allen hier und würde mich sehr über weitere Lösungsvorschläge freuen.

Das wundert nun nicht wirklich.
Die Zeile 'echo $f1 > $f3 ist Quark.
Streiche das "echo" und beachte das Leerzeichen zwischen ' und $
Die Zeile muss lauten: ' $f1 > $f3

Witzigerweise kann ich nicht erklären, warum du da keinen Syntaxfehler erhältst. Der sollte da eigentlich kommen.

Und das hier

Code:

echo > $f1
cat $f3 > $f1

kannst du abkürzen zu

Code:

cat <$f3 >$f1

Eine Umleitung mit > löscht automatisch.
>> würde am Ende anhängen.

**BetterWorld** · 10.09.15, 18:43

Zitat von fork

...Anmerkung: Die AWK-Variante hat das dann zwar im Speicher, aber vergleicht immer noch 60.000 Mal für jeden Datensatz.

@fork Mir gefällt deine Lösung auch besser. Aber auch grep muss jeden Ausdruck auf jede Zeile anwenden.
Da würden mich jetzt auch die Laufzeiten beider Lösungen mit den großen Dateien interessieren.

Und wenn deine schneller ist, klaue ich dir einfach die Optimierung mit dem Sortieren. Dann is bestimmt vielleicht wieder awk schneller....

@CherryWine einfach ein

Code:

time  awk ' .....

vorangestellt gibt einen Anhaltspunkt, wie lange der Prozess wo was treibt.

**marce** · 10.09.15, 19:00

... und wie üblich ist man nicht der Erste, der auf ein Problem stößt:
http://stackoverflow.com/questions/4...n-another-file
http://stackoverflow.com/questions/1...not-in-another

passt zwar nicht 1:1, ließe sich aber jeweils recht einfach anpassen.

Je nach Datenumfang (und 1.6Mio passt da eigentlich aus meiner Sicht rein) ist das aber eigentlich kein Job mehr für Textdateien und deren Werkzeuge sondern eher was für Datenbanken.