Anzeige:
Ergebnis 1 bis 3 von 3

Thema: Aius HTML Dateien Verweise auslesen

  1. #1
    Registrierter Benutzer
    Registriert seit
    Mar 2003
    Ort
    Niedersachsen
    Beiträge
    582

    Aius HTML Dateien Verweise auslesen

    Moin zusammen

    Ich habe mittels httrack eine Spiegelung einer Site vorgenommen.
    Alles soweit gut.
    Nun möchte aus diesen sehr vielen Seiten die Verweise "a href" auslesen und in eine Linkliste speichern.
    Das Ganze sollte danach so in etwa aussehen:
    1,gegeben (von put),<a href= ".....">, Seitenüberschrift (1 Wort)
    Daraufhin wollte ich in die Index-Seite eine Suchfunktion einbauen, die dann mittels get und put die Linkliste ausliest und den Link mitsamt Seitenüberschrift zurück gibt.
    Ich habe bereits einen 1-Zeiler mit sed gefunden.
    Code:
    sed 's|"|\n|g' 100*.html | grep "^http" > Linkliste
    Funktioniert auch gut, nur leider sucht sed dabei die URLs raus.
    Wenn ich nun aber
    Code:
    sed 's|"|\n|g' 100*.html | grep "^a href" > Linkliste
    eingebe, bleibt die Linkliste leer. Auch dann, wenn statt "a href" nur "href" eingegeben wird.

    Wo liegt hier der Fehler?
    Aus der Manpage werde ich nicht schlau, um den Fehler zu finden.
    Auch hxwls ist nicht das, was ich gebrauchen kann.

    Ich weiß, es würde mittels PHP oder einer Datenbank besser funktionieren. Nur ist die gesamte Site lokal nicht sonderlich groß, sodass eine Datenbank ausscheidet.
    Ich könnte natürlich auch die lokale Suche verwenden, was aber nicht in meinem Sinn ist.
    Es sei denn ihr bringt es fertig mich davon zu überzeugen, weil der Aufwand dafür zu groß ist.

    Zumindest schon mal Danke für eure Kommentare.
    thanks, exponator
    • Laptop 1: openSuSE Leap 15.3 - KDE 5 Plasma
    • Laptop 2: openSUSE Leap 15.3 - KDE 5 Plasma

  2. #2
    Registrierter Benutzer
    Registriert seit
    Mar 2009
    Beiträge
    174
    Wo liegt hier der Fehler?
    Code:
    sed 's|"|\n|g'
    Du ersetzt alle " durch einen Zeilenvorschub bzw. neue Zeile
    D.h. aus
    Code:
    <a href="http://meine.seite.de">Überschrift</a>
    wird
    Code:
    <a href=
    http://meine.seite.de
    >Überschrift</a>
    das jagst du dann zeilenweise durch grep
    Code:
    grep "^http"
    Das ^ bedeutet Zeilenanfang. Daher wird auch nur die URL gefunden und sonst nichts, in der Zeile steht ja auch nicht mehr.
    Wenn Du nun aber nach
    Code:
    grep "^a href"
    suchst, findest Du gar nichts, denn der Suchstring steht so nicht am Zeilenanfang und außerdem ist in dieser Zeile dann auch nicht mehr zu finden.

    Mit etwas Glück könnte es so funktionieren (ungetestet!)
    Code:
    sed 's|"|\n|g' 100*.html | sed 's|</a>||g' | grep "^>" | sed 's|>||g'
    Das erste sed kennst Du bereits, das Zweite entfernt </a> das grep holt Dir die Zeile mit dem > am Zeilenanfang und das letzte sed nimmt das > auch noch weg. Übrig sollte nur die Überschrift bleiben.

    Keine Gewähr

    Gruß

    Tom
    Geändert von TomTobin (06.01.22 um 00:12 Uhr)

  3. #3
    Registrierter Benutzer
    Registriert seit
    Mar 2003
    Ort
    Niedersachsen
    Beiträge
    582
    Danke TomTobin zunächst für deine Idee und Erklärung.

    Es hat zwar nicht so funktioniert wie erhofft, ist aber nicht weiter schlimm,
    Ich schau mal ob ich einige Beispiele finde in denen sed mit seiner Machbarkeit näher erklärt wird.
    So schwer kann das doch nicht sein, das Tool besser kennenzulernen.
    thanks, exponator
    • Laptop 1: openSuSE Leap 15.3 - KDE 5 Plasma
    • Laptop 2: openSUSE Leap 15.3 - KDE 5 Plasma

Ähnliche Themen

  1. Automatisierung (CSV auslesen und html+Co herunterladen + Datenfiltern + umbenennen)
    Von JasonPat im Forum Anwendungen Allgemein, Software
    Antworten: 7
    Letzter Beitrag: 04.04.12, 09:36
  2. Zeile aus Datei auslesen und in HTML ausgeben
    Von DaSilva im Forum Linux Allgemein
    Antworten: 7
    Letzter Beitrag: 21.02.08, 15:28
  3. Zeichensatz von Dateien auslesen?
    Von Qeldroma im Forum System installieren und konfigurieren
    Antworten: 5
    Letzter Beitrag: 11.05.06, 09:12
  4. HTML Dateien in .doc konvertieren
    Von Herr Kommisar im Forum Linux als Server
    Antworten: 0
    Letzter Beitrag: 30.03.05, 12:23
  5. Konquerer öffnet immer Datei.html statt Verzeichnis, (Verz. enth.mehrer html-Dateien)
    Von Mr.Nobody im Forum System installieren und konfigurieren
    Antworten: 2
    Letzter Beitrag: 07.06.03, 20:12

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •