PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : SetEnvIF Frage, Suchbot HTTP-Signatur (nicht U.A.)



403
26.08.07, 09:36
moin,

Ein Bekannter moechte aufgrund vor Angst vor Psychopathen, sein Impressum nicht von diversen Bots indexiert wissen. Das geht nun
etwas unschick host-basiert, bis der Bot-Betreiber die IP Adressen
aendert, eine neue Domain registriert.



<LocationMatch "^/user/impressum.html$">
Order Allow,Deny
Deny from 72.14.209.99
Deny from 72.14.253.99
Deny from .googlebot.com
Allow from all
ErrorDocument 403 "what a sunny day"
</LocationMatch>


Matchen ueber den User-Agent String scheint flexibler, wenn der
Regex passt, sonst aergert man sich ehrm..., leider passt das auch
auf alle moeglichen Sorten von lynx -useragent googlebot usw.



<LocationMatch "^/user/impressum.html$">
SetEnvIf User-Agent "oogle" getout
SetEnvIf User-Agent banane getout
SetEnvIf Host 72.14.209.99 getout
SetEnvIf Host 72.14.253.99 getout
Order Allow,Deny
Deny from env=getout
ErrorDocument 403 "what a sunny day"
Allow from all
#Allow from !env=getout
</LocationMatch>


Abgesehen davon, das man direkt bei $Suchmaschine die Seiten, die nicht
indiziert werden sollen, angeben kann, welches Kriterium hat man, zu
wissen ob eine Anfrage mit User-Agent $Botname tatsaechlich ein Bot ist?
(Der UA ist halt leicht zu manipulieren soweit, sogut)

Gibt es eindeutige - nur von Suchbots gesandte - Merkmale nach denen
man mit SetEnvIF filtern kann?


Gruss 403

marce
26.08.07, 09:52
Die Erfahrung sagt bisher: Nein.

Bei den Dingern ist man eigentlich darauf angewiesen, dass sie sich an die formale Vorgabe der rotbots.txt halten und sich immer so ausweisen, wie es auf der Doku-Seite der großen und "seriösen"(*) Betreiber angegeben ist.

Eindeutigstes Merkmal ist glaube ich, dass kein Referrer angegeben ist - aber das ist leider kein hinreichendes Merkmal für einen Bot...


(*) die "" wegen Google und Konsorten, sonst kommen bloß wieder welche und sagen, es gäbe keine seriösen... :-)

403
18.09.07, 03:23
Ich werde am WE mal ein Paar Botanfragen auswerten. In der Zwischenzeit
hatte ich ziemlich die Schnautze voll und hab das mal in ein Shellscript ge
gossen.

http://nopaste.de/p/alnInRaYY

Newbie314
18.09.07, 09:56
Hallo 403 !

.. gibt es irgendeinen Grund das Impressum nicht einfach als .gif, .jpg oder .gnp abzulegen ?

Richtig "botsicher" wäre es zum Beispiel in schöner Handschrift das Impressum zu schreiben, es einzuscannen, in .jpg zu verwandeln und so auf die Page zu stellen.

Ich glaube nicht dass ein Bot das in den nächsten Jahren knackt ....


So was ähnliches habe ich verwendet um Mailadressen auf einer Homepage vor Harvestern zu schützen.. funktioniert bereits seit Jahren sehr gut.... wir kriegen praktisch nur Spam die von einem Menschen direkt gesandt wurde .. und die ist nicht so häufig ....

403
18.09.07, 10:55
Hallo Newbie314

Ja das waere denkbar. Man will aber neben dem Impressum ggf. auch andere Dateien schuetzen. ;) <sarkasm>Und es gibt numal auch images.google.com :ugly: </sarkasm>