webspider [Archiv] - linuxforen.de -- User helfen Usern

Archiv verlassen und diese Seite im Standarddesign anzeigen : webspider

09.06.02, 20:17

Hi,

Ich bräuchte einen vernünftigen webspider für linux, der die dateien so saugt, wie sie am Server liegen!

mfg

ml

keiner_1

09.06.02, 21:58

meinst du sowas wie wget? was ist ein webspider?

greetz

adme

09.06.02, 22:05

wget kenn ich eh

wget -p http://www.layr.net

saugt der mir die Bilder usw nicht.

Ein webspider saugt von einer URL alle HTML, java files und pics und erzeugt auch die gleiche Verzeichnisstruktur lokal wie am Webserver!

fs111

09.06.02, 23:50

wget -r -l2 www.eineseite.de

Das -r ist für rekursiv, das -l und die Zahl ist für die Tiefe der Links, denen er folgen soll. Dann landet alles auf Deiner Platte und ist offline erreichbar.

fs111

10.06.02, 01:06

Ok, danke!

muell200

06.04.05, 12:43

meinst du sowas wie wget? was ist ein webspider?

ich suche das selbe...
mein ziel:
mittels webspider sich bei ebay einloggen und meine abgelaufen auktionen zu speichen..
dazu muss ich mich vorher bei ebay anmelden udn das kann wget nicht...

hat jemand einen webspider oder eine andere lösung?

Danke

Jofisch

06.04.05, 15:11

muell200

06.04.05, 15:54

Hast du mal aufs Datum geschaut? :ugly:

Du kannst mit wget Post-Variablen an die Seite übergeben und Cookies speichern. Mehr brauchst du nicht um die bei ebay einzuloggen.

--post-data=STRING
--save-cookies=FILE
--load-cookies=FILE

?? was meinst du mit Datum?

wget mit post-data.... geht nicht
wie genau soll das funktionieren??

hast du noch einen tip?

Morph01

06.04.05, 17:42

Er meinte das Datum, an dem lp den letzten Beitrag geschrieben hat, d.h. vor dir. Das war der 11.6.02, du schreibst also in einen 2 1/2 jahre alten Thread.

Jofisch

07.04.05, 08:04

wie genau soll das funktionieren??

hast du noch einen tip?

wget --post-data='userid=<deine Userid>&pass=<dein Passwort>' 'https://signin.ebay.de/ws/eBayISAPI.dll?co_partnerid=2&siteid=77&UsingSSL=1'

muell200

07.04.05, 14:12

wget --post-data='userid=<deine Userid>&pass=<dein Passwort>' 'https://signin.ebay.de/ws/eBayISAPI.dll?co_partnerid=2&siteid=77&UsingSSL=1'

bin etwas weiter...
kann mich anmelden, aber etwas die cookies ( denke ich mal ) werden nicht richtig übergeben..

folgendes habe ich versucht;

wget -T 2 --cookies=on --post-data='MfcISAPICommand=SignInWelcome&siteid=77&userid=username&pass=passwort&co_partnerId=2&UsingSSL=1&ru=http://my.ebay.de:80/ws/eBayISAPI.dll?MyeBay&ssPageName=h%3Ah%3Amebay%3ADE&pp=""&pa1=""&pa2=""&pa3=""&i1=-1&pageType=1883' --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.6) Gecko/20040114" --load-cookies=/home/ew/.mozilla/default/cz6b5lnl.slt/cookies.txt 'https://signin.ebay.de/ws/eBayISAPI.dll?co_partnerid=2&siteid=77&UsingSSL=1'

-> einloggen, aber fehlermeldung cookies...

ich glaub ich geb auf,...
oder hat jemand noch einen tip?

markwaldhoff

13.04.05, 21:26

Ich habe gerade auch ein großes Problem mit wget...
Ich möchte einen Produktkatalog der in php programmiert wurde und auf meinem Server liegt (localhost) offline verfügbar machen und auf eine CD brennen....

Es soll einfach die Webseite so kopiert werden wie sie erscheint wenn ich sie aufrufe...
ich habe es mit "wget -m" und mit "wget -r -l2" versucht, aber das geht nicht.
Die Links speicher er immernoch so ab, das er auf meinen Webserver zugreift.

Zum Beispiel gibt es einen Link "Home" auf der Seite der auf folgende Datei zeigt:

http://localhost/katalog/index.html

Wenn ich jetzt eine Spiegelung der Seite gemacht habe z.B. nach /home/user/webseite/, dann erwarte ich eigentlich das der link auf eine Datei in diesem Verzeichnis zeigt... ist aber nicht so... der Link zeigt nach wie vor auf

http://localhost/katalog/index.html

Deshalb bringt mir das nix... auf einem anderen Rechner gibt es diese Datei ja nicht... :(

Was könnte ich da machen ???
Ich hatte immer gedacht, ich mache einen Katalog, kopiere den mit wget auf Festplatte und mache ihn OFFLINE verfügbar und kann ihn dann auf CD kopieren... :confused:

muell200

14.04.05, 08:16

Zum Beispiel gibt es einen Link "Home" auf der Seite der auf folgende Datei zeigt:

http://localhost/katalog/index.html

Wenn ich jetzt eine Spiegelung der Seite gemacht habe z.B. nach /home/user/webseite/, dann erwarte ich eigentlich das der link auf eine Datei in diesem Verzeichnis zeigt... ist aber nicht so... der Link zeigt nach wie vor auf

wurde ich spontan sagen, ds die html-seite schlecht programmiert ist.
wget kann nicht die html-seiten anpassen bzw. ändern.

ändere den link auf
z.b.: katalog/home.html...

dann geht es auch mit wget