PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Eigenen Bot, Spider oder Robot bauen



vanessa
19.04.08, 12:09
Hi Leute

Ich hoffe ich habe mit meinem Anliegen das richtige Forum getroffen. Falls nicht, danke ich schonmal im Voraus für die korrekte Zuteilung:ugly:

Ich muss zurzeit ziemlich viel Infos aus diversen Onlineverzeichnissen raussuchen. Habe mir nun überlegt sowas wie einen eigenen Spider zu bauen der das für mich erledigt. Grundsätzlich muss der Spider in etwa wie folgt funktionieren.

Auf einer Website kann ich nach Rubriken suchen und habe dann eine Auflistung aller treffer in Form von jeweils einem Link pro Treffer. Wenn ich auf den Link Klicke komme ich auf die Detailseite wo mir die Adresse angezeigt wird und noch einige Details dazu.

Ich möchte nun, dass mein Spider jeweils jedem Link folgt und mir die von mir definierten Inhalte in irgend eine Datenbank (mysql, pgsql) oder ein File schreibt.

Ich könnte mir vorstellen, dass es sowas vielleicht schon fertig gibt. Falls Jemand nen Link zu sowas hat wäre ich dankbar. Ansonsten hat vielleicht jemand ein paar Inputs wie ich sowas machen könnte. Ich denke mit einem entsprechenden Shell-Skript müsste das sogar schon machbar sein.

van

Newbie314
19.04.08, 12:23
Ich habe meine Tipps zum Thema wieder rausgelöscht da mir zu deiner Beschreibung keine Anwendung außer Spam oder gewerblich betriebenen Abmahnereien einfallen.

Ich habe Tipps für dich, aber da musst du erst mal plausibel erklären wozu du so etwas benötigst.

Aqualung
19.04.08, 13:13
wget -r <URL>

-l depth
--level=depth
Specify recursion maximum depth level depth. The default maximum depth is 5.

HTH Aqualung

Sidolin
19.04.08, 13:15
Ich habe meine Tipps zum Thema wieder rausgelöscht da mir zu deiner Beschreibung keine Anwendung außer Spam oder gewerblich betriebenen Abmahnereien einfallen.

Ich habe Tipps für dich, aber da musst du erst mal plausibel erklären wozu du so etwas benötigst.

dem kann ich mich anschließen.

vanessa
20.04.08, 00:44
Mit euren Bedenken habt ihr vollkommen Recht. Zudem birgt so ein Posting mit ausführlichen Antworten ein Gefahrenpotential für Leute die zu einem Späteren Zeitpunkt Zb. via google darauf stossen und böswillige absichten verfolgen. Soweit habe ich nicht gedacht, als ich dieses Posting schrieb.

Ich möchte trotzdem kurz erleutern, was ich genau mache.
Es gibt ein Firmenverzeichnis wo Firmen nach Ortschaft, Branche, Mitarbeiterzahl etc. gesucht werden können(völlig Legal und öffentlich zugänglich).
Ich vertreibe seit kurzem eine Softwarelösung die ich potentiellen Kunden in einem gezielten Werbebrief vorstelle. Dazu suche ich gezielt diejenigen raus, für die diese Software nützlich sein könnte. Schlussendlich sende ich einen Werbebrief an diese Firmen. Im Moment, suche ich jeden Tag ca. 50 passende Firmen von Hand raus und mache einen Serienbrief.
Das ganze Suchen von Hand ist ein wenig ineffizient und fehleranfällig, aber es klappt bis jetzt ganz OK. Bis jetzt habe ich auch noch nie eine Beschwerde erhalten weil ich wie gesagt, den Brief gezielt versende und nicht als Massensendung.

@ Newbie314, Wäre dir sehr dankbar, wenn du mir deine Antwort ev. in einer PM zusenden könntest. Ich werde auch gerne weitere Fragen beantworten, solltest du noch gezieltere Infos haben wollen.

Zu guter letzt, möchte ich noch kurz auf meine langjährige Mitgliedschaft in diesem Forum hinweisen. Es ist doch eher unwahrscheinlich, dass jemand nach vielen Jahren plötzlich auf die schiefe Bahn gerät.

van

Sidolin
20.04.08, 01:14
Von was fertigem weiß ich jetzt nichts, aber mittels einer Skriptsprache wie Python ist das innerhalb von einigen Minuten gemacht, kommt halt drauf an wie vollständig das sein soll. Allerdings bezweifle ich stark dass du hier ein fertiges Skript bekommen wirst da man das speziell anpassen müsste, was Arbeit und Testen bedeutet.

vanessa
20.04.08, 01:44
hallo sidolin

was fertiges habe ich auch nicht erwartet;) die nötigen zutaten für ein solches python skript würden mir schon ausreichen. mit wget und grep bin ich grad dran etwas shellskriptmässiges zusammen zu zimmern.

van

Roger Wilco
20.04.08, 12:01
Für Python: http://www.crummy.com/software/BeautifulSoup/
Für Ruby: http://code.whytheluckystiff.net/hpricot/ und/oder http://mechanize.rubyforge.org/

core
20.04.08, 15:54
Vanessa an die Wand!

Ich glaube kaum, dass das Auslesen der Daten in der Form gewünscht bzw. auch GESTATTET ist, und
b) habe ich erhebliche Zweifel an deiner Glaubwürdigkeit.
c) die Automatisierung ist mit Sicherheit un ein VIELFACHES fehleranfälliger als dein manuelles Spammen.
d) Mitgliedschaft in diesem Forum ist kein Beweis für Ehrbarkeit oder "nicht auf der schiefen Bahn" sein.
e) Dein Geschäftsmodell ist erbärmlich
f) Wettbewerbsrechtlich OK? Für mich hört sich das nicht so an!

vanessa
21.04.08, 00:09
@core


Vanessa an die Wand!

Warum müssen gewisse Leute immer gleich so extrem sein, verstehe ich einfach nicht :confused:

Extremisten sind einer der Gründe, warum wir auf dieser Welt Kriege, Selbstmordattentäter, Genozide etc. haben.

Deine Bemerkung "e)" ist zudem noch völlig fehl am Platz. Werbung funktioniert nun mal so. Wenn jeder der was verkaufen will sich die Mühe machen würde nur diejenigen anzuschreiben die das Produkt auch wirklich brauchen könnten, würde es auch kein Spam geben. Dann würde ich nämlich nicht täglich Viag*a Mails erhalten.

Misstrauen und Vorsicht sind wichtig und bei diesem Thema auch durchaus angebracht. Ein derart unreifes und extremes verhalten ist jedoch völlig fehl am Platz. Da schon von einigen anderen Mitgliedern auf positive Weise Misstrauen gehegt wurde, ist eigentlich dein ganzer Beitrag überflüssig.


van

bla!zilla
21.04.08, 08:07
Bitte sachlich werden oder ich mach das hier dicht.