moin,
Ein Bekannter moechte aufgrund vor Angst vor Psychopathen, sein Impressum nicht von diversen Bots indexiert wissen. Das geht nun
etwas unschick host-basiert, bis der Bot-Betreiber die IP Adressen
aendert, eine neue Domain registriert.
Code:
<LocationMatch "^/user/impressum.html$">
Order Allow,Deny
Deny from 72.14.209.99
Deny from 72.14.253.99
Deny from .googlebot.com
Allow from all
ErrorDocument 403 "what a sunny day"
</LocationMatch>
Matchen ueber den User-Agent String scheint flexibler, wenn der
Regex passt, sonst aergert man sich ehrm..., leider passt das auch
auf alle moeglichen Sorten von lynx -useragent googlebot usw.
Code:
<LocationMatch "^/user/impressum.html$">
SetEnvIf User-Agent "oogle" getout
SetEnvIf User-Agent banane getout
SetEnvIf Host 72.14.209.99 getout
SetEnvIf Host 72.14.253.99 getout
Order Allow,Deny
Deny from env=getout
ErrorDocument 403 "what a sunny day"
Allow from all
#Allow from !env=getout
</LocationMatch>
Abgesehen davon, das man direkt bei $Suchmaschine die Seiten, die nicht
indiziert werden sollen, angeben kann, welches Kriterium hat man, zu
wissen ob eine Anfrage mit User-Agent $Botname tatsaechlich ein Bot ist?
(Der UA ist halt leicht zu manipulieren soweit, sogut)
Gibt es eindeutige - nur von Suchbots gesandte - Merkmale nach denen
man mit SetEnvIF filtern kann?
Gruss 403
Lesezeichen