.htaccess und robots.txt

  1. matt666

    matt666 Thread StarterMacUser Mitglied

    Mitglied seit:
    13.10.2004
    Beiträge:
    28
    Zustimmungen:
    0
    Hallo Leute,

    ich habe ab und an das Problem das Leute meine Seite "spidern". Sprich da zieht sich jemand meine Seite, erzeugt massig traffic, um diese dann Lokal zu speichern. Inklusive aller Bilder etc....

    Wie kann ich das verhindern?

    Mit der robots.txt-Datei kann ich den Robots der Suchmaschinen mehr oder weniger gut einhalt gebieten (sofern die sich dran halten allow/denie).
    Schönes Beispiel ist :

    http://www.macuser.de/robots.txt

    Das wird aber mein Problem nicht lösen.

    Deswegen meine Frage, ist es möglich per .htaccess die Clients wie zB:
    Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
    auszusperren bzw umzuleiten ???

    Hat da jemand bereits erfahrung gesammelt?

    Danke - matt666
     
    matt666, 11.01.2005
  2. wegus

    wegusMacUser Mitglied

    Mitglied seit:
    13.09.2004
    Beiträge:
    14.982
    Zustimmungen:
    1.545
    Mit .htaccess kann man verschiedene Einstellungen der httpd.conf ändern, wenn diese das zuläßt ( AllowOverride). Unter anderem kann man es zur Authentifizierung via user/passwd nutzen um so den Zugang zu kontrollieren. Das das für bestimmte Browser-typen geht glaube ich nicht ( will es aber nicht ausschließen). In jedem Fall ist die Browser-Kennung nur ein String im http-header und damit leicht fälschbar ( Opera tritt häufig als IE auf!).
    Eine genaue Beschreibung der .htaccess gibt es bei www.apache.org
     
    wegus, 11.01.2005
  3. matt666

    matt666 Thread StarterMacUser Mitglied

    Mitglied seit:
    13.10.2004
    Beiträge:
    28
    Zustimmungen:
    0
    Hallo wegus,
    nach einiger suche hab ich eine Lösung gefunden:

    # /block out spiders
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
    RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
    RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
    RewriteRule ^.*$ http://www.httrack.com [L,R]

    das in die .htaccess und die Seite von www.httrack.com wird opfer vom eigenen Tool - nicht die feine Art. Einen Seiten-Spider einsetzen ist auch nicht grade net...

    Gruss matt666
     
    matt666, 11.01.2005
  4. HAL

    HAL

    Aber praktisch wenn man eine Seite in Ruhe offline anschauen möchte. :cool:
     
  5. wegus

    wegusMacUser Mitglied

    Mitglied seit:
    13.09.2004
    Beiträge:
    14.982
    Zustimmungen:
    1.545
    @matt666:
    Ich sehe es, verstehe aber das wenigste davon! Das muß ich mir mal in Ruhe zusammenlesen! Ist aber gut zu wissen das es tatsächlich per .htaccess geht!
     
    wegus, 11.01.2005
  6. HAL

    HAL

    Und was machst Du, wenn ich in meinem Spider-Programm den
    HTTP Agenten umbenenne, so das er vorgibt ein Webbrowser zu
    sein? Willst Du den dann auch aussperren?

    ;)
     
  7. matt666

    matt666 Thread StarterMacUser Mitglied

    Mitglied seit:
    13.10.2004
    Beiträge:
    28
    Zustimmungen:
    0
    @HAL

    natürlich kann man nicht alles und jeden aussperren. Macht auch irgendwie keinen Sinn. Es nervt aber wenn jemand 1800 Dateien zieht und einiges a traffic erzeugt. Am ende bin ich derjenige der für den Traffic zahlt. Bei einer privaten Homepge ist das nicht lustig.

    cu mAtt666
     
    matt666, 12.01.2005
  8. HAL

    HAL

    Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.
     
  9. Pingu

    PinguMacUser Mitglied

    Mitglied seit:
    04.08.2003
    Beiträge:
    4.900
    Zustimmungen:
    341
    Dies stimmt so nicht. Wenn nämlich eine Website Datenbank gestützt ist, gibt es immer mehrere Wege, um an die gewünschte Information zu kommen. Ein menschlicher Besucher wird mit der Suche aufhören, wenn er die gesuchte Information gefunden hat. Ein Spider lädt gnadenlos alles. Egal, ob es später wirklich benötigt wird oder nicht.

    Am schlimmsten hierbei verhält sich aber der Internet Explorer. Wenn bei diesem eine Website für das Offline lesen markiert ist und dieser Rechner trotzdem ständig online ist, dann lädt dieser die komplette Website mehrmals täglich (je nach Datenrate). Was vollkommen unnötigen Traffic verursacht. Zum Glück kann man dies aber auch am String erkennen (DigExt).

    Pingu
     
    Pingu, 12.01.2005
  10. matt666

    matt666 Thread StarterMacUser Mitglied

    Mitglied seit:
    13.10.2004
    Beiträge:
    28
    Zustimmungen:
    0
    @Pingu
    jau, ein spider-tool zieht konsequent alles - egal ob die gewünschte info schon in der ersten seite war oder nicht. meistens geht es den usern um ein oder zwei bilder/infos...

    ich habe mal meinen apache-logs ausgewertet. an dem tag wurde 2 mal ein spider-tool eingesetzt und hat 3600 seitenaufrufe generiert. was jeweils ca 30 Minuten gedauert hat. ich denke mal das in der zeit andere user zumindestens nur zäh mit seiten versorgt wurden.
    datenvolume sprechen wir hier von ca. 161,00 MB -- da sind einige Bilder auf den seiten...

    klar habe ich traffic inklusive. es kann aber nicht sein das ich für so ein paar leecher letztenendes noch drauf zahlen muss....

    \m/
     
    matt666, 18.01.2005
Die Seite wird geladen...
Ähnliche Themen - htaccess robots txt
  1. cusquito
    Antworten:
    4
    Aufrufe:
    392
    cusquito
    27.10.2015
  2. max@hismac
    Antworten:
    2
    Aufrufe:
    765
    max@hismac
    30.10.2014
  3. wakethedead
    Antworten:
    1
    Aufrufe:
    526
    wakethedead
    30.01.2013
  4. majupekra
    Antworten:
    5
    Aufrufe:
    631
    majupekra
    08.02.2011
  5. e-dude
    Antworten:
    5
    Aufrufe:
    859
    Dizzy.w3
    18.12.2010