403
26.08.07, 09:36
moin,
Ein Bekannter moechte aufgrund vor Angst vor Psychopathen, sein Impressum nicht von diversen Bots indexiert wissen. Das geht nun
etwas unschick host-basiert, bis der Bot-Betreiber die IP Adressen
aendert, eine neue Domain registriert.
<LocationMatch "^/user/impressum.html$">
Order Allow,Deny
Deny from 72.14.209.99
Deny from 72.14.253.99
Deny from .googlebot.com
Allow from all
ErrorDocument 403 "what a sunny day"
</LocationMatch>
Matchen ueber den User-Agent String scheint flexibler, wenn der
Regex passt, sonst aergert man sich ehrm..., leider passt das auch
auf alle moeglichen Sorten von lynx -useragent googlebot usw.
<LocationMatch "^/user/impressum.html$">
SetEnvIf User-Agent "oogle" getout
SetEnvIf User-Agent banane getout
SetEnvIf Host 72.14.209.99 getout
SetEnvIf Host 72.14.253.99 getout
Order Allow,Deny
Deny from env=getout
ErrorDocument 403 "what a sunny day"
Allow from all
#Allow from !env=getout
</LocationMatch>
Abgesehen davon, das man direkt bei $Suchmaschine die Seiten, die nicht
indiziert werden sollen, angeben kann, welches Kriterium hat man, zu
wissen ob eine Anfrage mit User-Agent $Botname tatsaechlich ein Bot ist?
(Der UA ist halt leicht zu manipulieren soweit, sogut)
Gibt es eindeutige - nur von Suchbots gesandte - Merkmale nach denen
man mit SetEnvIF filtern kann?
Gruss 403
Ein Bekannter moechte aufgrund vor Angst vor Psychopathen, sein Impressum nicht von diversen Bots indexiert wissen. Das geht nun
etwas unschick host-basiert, bis der Bot-Betreiber die IP Adressen
aendert, eine neue Domain registriert.
<LocationMatch "^/user/impressum.html$">
Order Allow,Deny
Deny from 72.14.209.99
Deny from 72.14.253.99
Deny from .googlebot.com
Allow from all
ErrorDocument 403 "what a sunny day"
</LocationMatch>
Matchen ueber den User-Agent String scheint flexibler, wenn der
Regex passt, sonst aergert man sich ehrm..., leider passt das auch
auf alle moeglichen Sorten von lynx -useragent googlebot usw.
<LocationMatch "^/user/impressum.html$">
SetEnvIf User-Agent "oogle" getout
SetEnvIf User-Agent banane getout
SetEnvIf Host 72.14.209.99 getout
SetEnvIf Host 72.14.253.99 getout
Order Allow,Deny
Deny from env=getout
ErrorDocument 403 "what a sunny day"
Allow from all
#Allow from !env=getout
</LocationMatch>
Abgesehen davon, das man direkt bei $Suchmaschine die Seiten, die nicht
indiziert werden sollen, angeben kann, welches Kriterium hat man, zu
wissen ob eine Anfrage mit User-Agent $Botname tatsaechlich ein Bot ist?
(Der UA ist halt leicht zu manipulieren soweit, sogut)
Gibt es eindeutige - nur von Suchbots gesandte - Merkmale nach denen
man mit SetEnvIF filtern kann?
Gruss 403