Anzeige:
Ergebnis 1 bis 5 von 5

Thema: SetEnvIF Frage, Suchbot HTTP-Signatur (nicht U.A.)

  1. #1
    Registrierter Benutzer
    Registriert seit
    May 2001
    Ort
    Berlin
    Beiträge
    870

    SetEnvIF Frage, Suchbot HTTP-Signatur (nicht U.A.)

    moin,

    Ein Bekannter moechte aufgrund vor Angst vor Psychopathen, sein Impressum nicht von diversen Bots indexiert wissen. Das geht nun
    etwas unschick host-basiert, bis der Bot-Betreiber die IP Adressen
    aendert, eine neue Domain registriert.

    Code:
    <LocationMatch "^/user/impressum.html$">
    Order Allow,Deny
       Deny from   72.14.209.99
       Deny from   72.14.253.99
       Deny from   .googlebot.com
        Allow from all
        ErrorDocument 403 "what a sunny day"
    </LocationMatch>
    Matchen ueber den User-Agent String scheint flexibler, wenn der
    Regex passt, sonst aergert man sich ehrm..., leider passt das auch
    auf alle moeglichen Sorten von lynx -useragent googlebot usw.

    Code:
    <LocationMatch "^/user/impressum.html$">
        SetEnvIf User-Agent "oogle" getout
        SetEnvIf User-Agent banane getout
         SetEnvIf Host  72.14.209.99 getout
         SetEnvIf Host  72.14.253.99  getout
    Order Allow,Deny
        Deny from env=getout
        ErrorDocument 403 "what a sunny day"
        Allow from all
        #Allow from !env=getout
    </LocationMatch>
    Abgesehen davon, das man direkt bei $Suchmaschine die Seiten, die nicht
    indiziert werden sollen, angeben kann, welches Kriterium hat man, zu
    wissen ob eine Anfrage mit User-Agent $Botname tatsaechlich ein Bot ist?
    (Der UA ist halt leicht zu manipulieren soweit, sogut)

    Gibt es eindeutige - nur von Suchbots gesandte - Merkmale nach denen
    man mit SetEnvIF filtern kann?



    Gruss 403
    ls ~-

  2. #2
    Registrierter Benutzer
    Registriert seit
    Dec 2003
    Ort
    Dettenhausen
    Beiträge
    22.054
    Die Erfahrung sagt bisher: Nein.

    Bei den Dingern ist man eigentlich darauf angewiesen, dass sie sich an die formale Vorgabe der rotbots.txt halten und sich immer so ausweisen, wie es auf der Doku-Seite der großen und "seriösen"(*) Betreiber angegeben ist.

    Eindeutigstes Merkmal ist glaube ich, dass kein Referrer angegeben ist - aber das ist leider kein hinreichendes Merkmal für einen Bot...


    (*) die "" wegen Google und Konsorten, sonst kommen bloß wieder welche und sagen, es gäbe keine seriösen... :-)
    Ich bin root - ich darf das.

  3. #3
    Registrierter Benutzer
    Registriert seit
    May 2001
    Ort
    Berlin
    Beiträge
    870
    Ich werde am WE mal ein Paar Botanfragen auswerten. In der Zwischenzeit
    hatte ich ziemlich die Schnautze voll und hab das mal in ein Shellscript ge
    gossen.

    http://nopaste.de/p/alnInRaYY
    ls ~-

  4. #4
    Newbie and practicing Avatar von Newbie314
    Registriert seit
    Mar 2007
    Beiträge
    7.639
    Hallo 403 !

    .. gibt es irgendeinen Grund das Impressum nicht einfach als .gif, .jpg oder .gnp abzulegen ?

    Richtig "botsicher" wäre es zum Beispiel in schöner Handschrift das Impressum zu schreiben, es einzuscannen, in .jpg zu verwandeln und so auf die Page zu stellen.

    Ich glaube nicht dass ein Bot das in den nächsten Jahren knackt ....


    So was ähnliches habe ich verwendet um Mailadressen auf einer Homepage vor Harvestern zu schützen.. funktioniert bereits seit Jahren sehr gut.... wir kriegen praktisch nur Spam die von einem Menschen direkt gesandt wurde .. und die ist nicht so häufig ....

  5. #5
    Registrierter Benutzer
    Registriert seit
    May 2001
    Ort
    Berlin
    Beiträge
    870
    Hallo Newbie314

    Ja das waere denkbar. Man will aber neben dem Impressum ggf. auch andere Dateien schuetzen. <sarkasm>Und es gibt numal auch images.google.com </sarkasm>
    ls ~-

Ähnliche Themen

  1. KMail Frage zur Signatur
    Von mvbruch im Forum Anwendungen Allgemein, Software
    Antworten: 0
    Letzter Beitrag: 19.02.05, 14:57

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •