PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Websuche Programm



MystiqueMax
02.04.10, 23:44
Hallo Community,
mein System: ein Ubuntu Karmic Koala 32bit.

So, meine Frage:
Gibt es vielleicht ein Programm für eine automatische Websuche.
Sollte folgende Features haben:
*Ein Suchbegriff wird auf mehreren Suchmaschienen parallel eingegeben.
*Die Funde werden bis zu einer Anzahl von (am Besten einstellbar) zum Beispiel 10000 Website oder 100GB downgeloadet. (Wobei 100GB wahrscheinlich viel mehr ist.)
*Die Links werden werden bis zu einer rekursiven Tiefe (am Besten einstellbar) von Beispielsweise 5 gedownloadet.
*Diese Dateien werden zur einfachen und übersichtlichen Ansteuern in seperaten Ordner abgelegt.
*Bilder sollten auch gedownloadet werden.

Wie ihr seht suche ich nach einer Möglichkeit besser mit Suchmaschienen umzugehen. Wenn ihr so ein Programm kennt oder ein ähnliches, bitte Bescheidsagen ;)

LG
Max

EDIT:
Ach ja, gleiche Urls zu erkennen und zu löschen wäre wohl auch nicht falsch ;)

EDIT 2:
PDFs sollten auch gesaugt werden.

EDIT 3:
Mein Gott, schon der dritte EDIT.. Naja, hat ja noch keiner geantwortet, sonst würde ich ja darunter posten. Kann auch gerne nur für englische Suchmaschinen sein...

naraesk
03.04.10, 00:25
Bin mir zwar nicht sicher ob all deine Anforderungen erfüllt werden können, aber schau dir doch mal yacy an. Das ist eine Art freie und dezentrale Suchmaschine und über die Host und Crawler- Funktion der Software sollte sich das bewerkstelligen lassen.

MystiqueMax
03.04.10, 00:53
Ok, ich installier gerade Yacy.
Thread soll weiterhin offen bleiben.

Für weitere Vorschläge wäre ich dankbar.

Vielen Dank naraesk

MystiqueMax
03.04.10, 01:10
Ok, erstes Review, ich lasse Yacy jetzt einige Minuten laufen. Ports sind freigeschaltet. Die Suchbegriffe lauten: XBox | Sexy | a
Ich lasse jetzt also parallel drei Suchanfragen laufen, die sicherlich jedes Millionenfach zu finden ist. Selbst nach einigen Minuten kann ich noch nichts finden.

Ich lasse die bis morgen durchlaufen und dann sehen wir ja ob Ergebnisse geliefert werden. Wenn das funktioniert kommen morgen die coolen Suchen ;)

marce
03.04.10, 10:08
eine Frage: warum willst Du sowas überhaupt? Reicht nicht die Ausgabe einer Metasuchemaschine? Alles runterladen ist doch eigentlich Blödsinn und Humbug, aber vielleicht sehe ich nur Deinen konkreten Anwendungsfall nicht...

(Alternativ ein wget mit passenden Parametern auf die Suchergebnissseite (oder die daraus extrahierten URLS) von z.B. metacrawler sollte das auch tun :-) - klingt nach einem kleinen Shellscript...)

MystiqueMax
03.04.10, 10:13
Weil ich testen will, was wirklich im Internet so alles zu finden ist. Einfach rein aus Interesse. Informationen über meinen Nachbarn? Geheimdienste wie CIA oder Mossad? Kuchenbackrezepte?

Ich habe einfach oftmals das Gefühl, dass das was ich bei google finde nicht alles sein kann. Denn spätesten bei der zweiten Seite weicht es vom Thema ab. Ich will einfach wissen ob es da eine effektivere Methode gibt und was das Internet wirklich alles so über einem zu sagen hat.

naraesk
03.04.10, 10:31
Da yacy eine dezentrale Suchmaschine ist, gibt es dort tatsächlich keinerlei Zensierung, wie es bei bei Google üblich ist (und das nicht nur in China …). Die Anzahl der Crawler wächst auch und es werden mittlerweile Tausende Seiten pro Sekunde gecrawlt aber quantitativ mehr als bei Google wirst du derzeit nirgendswo finden.

Und wenn du einen neuen Algorithmus findest, mit denen du die Qualität der Suchergebnisse verbessern kannst, kannst du damit sicherlich seeeeehr viel Geld machen. :D

eule
03.04.10, 11:20
Du kannst dir ja hier was raussuchen und dann mal das komplette Netz durchsuchen lassen. Hoffentlich hast du aussreichend Bandbreite und Hardware zur Verfuegung.
http://www.at-web.de/website-suchmaschinen

oziris
03.04.10, 21:29
Mir ist auch schon aufgefallen, dass Google letztes Jahr irgendwann die Suche unschärfer gemacht hat.
Wenn Du genau weißt, was Du willst und Begriffe so eingibst, dass es möglichst wenige Treffer gibt, die aber eine hohe Relevanz besitzen, dann arbeitet Google inzwischen ein bisschen gegen Dich.

bike
04.04.10, 08:29
@oziris
Da hast du wohl recht.
Ich führe das darauf zurück, dass alles und jedes durch Tante G angefragt wird und die zu einer Cashcow mutiert ist.

Es macht mich nachdenklich, wo es hinführt, denn es ist ja schick zu sagen "Habe im Netz recherchiert", obwohl nur die erste Treffer von Tante G gelesen und zitiert wurde.


bike

naraesk
04.04.10, 20:41
Google scheint aber auch das ein oder andere verändert zu haben.
Beispiel: Suche nach "ipad Absatz" (ohne Anführungszeichen).

Unter den Suchtreffern sind auch Einträge zum iPod. iPod ist fett, wird mir also als Suchtreffer angeboten. Es handelt sich dabei nicht einmal um einen "Meinten Sie …" Vorschlag, sondern Google markiert da einfach andere Wörter als Suchtreffer.
Google kann mir ja gerne Alternativen anbieten, aber so etwas finde ich wenig sinnvoll und man fühlt sich wieder einmal bevormundet. Habe ich in letzter Zeit des öfteren beobachtet.

oziris
05.04.10, 05:12
Ich würde ja http://de.search.yahoo.com/ (oder http://www.fireball.de/ ) benutzen, wenn nicht alle Ergebnisse erstmal nach Yahoo! linken würden und man von da weitergeleitet würde. (Da kann man so schlecht URLs aus den Ergebnissen filtern, die man sowieso nicht sehen möchte.)
Lange halte ich es mit Google wohl nicht mehr aus.
Ich habe mich schon umgesehen und http://search.lycos.de/ , http://www.exalead.de/search und http://www.cuil.com/ könnten noch gute Alternativen sein... mal sehen.
Yacy habe ich mir auf jeden Fall auch schonmal vorgemerkt; befürchte nur dass es (wie die meisten P2P-Systeme) anfällig für Spam ist, d.h. wenn andere Peers nach Ergebnissen gefragt werden, dann geben modifizierte Systeme einfach immer Werbeseiten zurück, obwohl dort das Gesuchte gar nicht vor kommt. Ich weiß nicht, wie man das verhindern soll :(

MystiqueMax
05.04.10, 20:37
Yacy habe ich jetzt ein paar Tage ausprobiert. Ist nicht das wahre. Oftmals zeigt es nur an wie viel Ergebnisse es hat und nicht welche. Scheint noch ziemlich verbuggt zu sein

naraesk
05.04.10, 20:51
Nein, das kann ich nicht bestätigen. Die einfache Websuche funktioniert eigentlich.
Sicher gibt es Bugs, aber soweit sollten alle Funktionalitäten produktiv verfügbar sein.

Interessant ist auch noch ixquick.com, vor allem deshalb, weil sie keinerlei IP- Adresen speichert. Ansonsten ist es aber nur eine normale Meta- Suchmaschine, wie jede andere und nicht mit der besten Performance.

MystiqueMax
06.04.10, 08:48
Interessant ist auch noch ixquick.com, vor allem deshalb, weil sie keinerlei IP- Adresen speichert.

Dazu kann ich scroogle.org, was ja wahrscheinlich screw google bedeuten soll, empfehlen. Keinerlei längere Speicherung, aber die Suchergebnisse von Google. Nun ja, leider nur Textsuche, aber immerhin ;)

Benutze ich meistens.