.htaccess und robots.txt

Diskutiere mit über: .htaccess und robots.txt im Web-Programmierung Forum

  1. matt666

    matt666 Thread Starter MacUser Mitglied

    Beiträge:
    28
    Zustimmungen:
    0
    Registriert seit:
    13.10.2004
    Hallo Leute,

    ich habe ab und an das Problem das Leute meine Seite "spidern". Sprich da zieht sich jemand meine Seite, erzeugt massig traffic, um diese dann Lokal zu speichern. Inklusive aller Bilder etc....

    Wie kann ich das verhindern?

    Mit der robots.txt-Datei kann ich den Robots der Suchmaschinen mehr oder weniger gut einhalt gebieten (sofern die sich dran halten allow/denie).
    Schönes Beispiel ist :

    http://www.macuser.de/robots.txt

    Das wird aber mein Problem nicht lösen.

    Deswegen meine Frage, ist es möglich per .htaccess die Clients wie zB:
    Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
    auszusperren bzw umzuleiten ???

    Hat da jemand bereits erfahrung gesammelt?

    Danke - matt666
     
  2. wegus

    wegus MacUser Mitglied

    Beiträge:
    15.029
    Zustimmungen:
    1.314
    Registriert seit:
    13.09.2004
    Mit .htaccess kann man verschiedene Einstellungen der httpd.conf ändern, wenn diese das zuläßt ( AllowOverride). Unter anderem kann man es zur Authentifizierung via user/passwd nutzen um so den Zugang zu kontrollieren. Das das für bestimmte Browser-typen geht glaube ich nicht ( will es aber nicht ausschließen). In jedem Fall ist die Browser-Kennung nur ein String im http-header und damit leicht fälschbar ( Opera tritt häufig als IE auf!).
    Eine genaue Beschreibung der .htaccess gibt es bei www.apache.org
     
  3. matt666

    matt666 Thread Starter MacUser Mitglied

    Beiträge:
    28
    Zustimmungen:
    0
    Registriert seit:
    13.10.2004
    Hallo wegus,
    nach einiger suche hab ich eine Lösung gefunden:

    # /block out spiders
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
    RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
    RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
    RewriteRule ^.*$ http://www.httrack.com [L,R]

    das in die .htaccess und die Seite von www.httrack.com wird opfer vom eigenen Tool - nicht die feine Art. Einen Seiten-Spider einsetzen ist auch nicht grade net...

    Gruss matt666
     
  4. HAL

    HAL Gast

    Aber praktisch wenn man eine Seite in Ruhe offline anschauen möchte. :cool:
     
  5. wegus

    wegus MacUser Mitglied

    Beiträge:
    15.029
    Zustimmungen:
    1.314
    Registriert seit:
    13.09.2004
    @matt666:
    Ich sehe es, verstehe aber das wenigste davon! Das muß ich mir mal in Ruhe zusammenlesen! Ist aber gut zu wissen das es tatsächlich per .htaccess geht!
     
  6. HAL

    HAL Gast

    Und was machst Du, wenn ich in meinem Spider-Programm den
    HTTP Agenten umbenenne, so das er vorgibt ein Webbrowser zu
    sein? Willst Du den dann auch aussperren?

    ;)
     
  7. matt666

    matt666 Thread Starter MacUser Mitglied

    Beiträge:
    28
    Zustimmungen:
    0
    Registriert seit:
    13.10.2004
    @HAL

    natürlich kann man nicht alles und jeden aussperren. Macht auch irgendwie keinen Sinn. Es nervt aber wenn jemand 1800 Dateien zieht und einiges a traffic erzeugt. Am ende bin ich derjenige der für den Traffic zahlt. Bei einer privaten Homepge ist das nicht lustig.

    cu mAtt666
     
  8. HAL

    HAL Gast

    Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.
     
  9. Pingu

    Pingu MacUser Mitglied

    Beiträge:
    4.894
    Zustimmungen:
    341
    Registriert seit:
    04.08.2003
    Dies stimmt so nicht. Wenn nämlich eine Website Datenbank gestützt ist, gibt es immer mehrere Wege, um an die gewünschte Information zu kommen. Ein menschlicher Besucher wird mit der Suche aufhören, wenn er die gesuchte Information gefunden hat. Ein Spider lädt gnadenlos alles. Egal, ob es später wirklich benötigt wird oder nicht.

    Am schlimmsten hierbei verhält sich aber der Internet Explorer. Wenn bei diesem eine Website für das Offline lesen markiert ist und dieser Rechner trotzdem ständig online ist, dann lädt dieser die komplette Website mehrmals täglich (je nach Datenrate). Was vollkommen unnötigen Traffic verursacht. Zum Glück kann man dies aber auch am String erkennen (DigExt).

    Pingu
     
    Zuletzt bearbeitet: 12.01.2005
  10. matt666

    matt666 Thread Starter MacUser Mitglied

    Beiträge:
    28
    Zustimmungen:
    0
    Registriert seit:
    13.10.2004
    @Pingu
    jau, ein spider-tool zieht konsequent alles - egal ob die gewünschte info schon in der ersten seite war oder nicht. meistens geht es den usern um ein oder zwei bilder/infos...

    ich habe mal meinen apache-logs ausgewertet. an dem tag wurde 2 mal ein spider-tool eingesetzt und hat 3600 seitenaufrufe generiert. was jeweils ca 30 Minuten gedauert hat. ich denke mal das in der zeit andere user zumindestens nur zäh mit seiten versorgt wurden.
    datenvolume sprechen wir hier von ca. 161,00 MB -- da sind einige Bilder auf den seiten...

    klar habe ich traffic inklusive. es kann aber nicht sein das ich für so ein paar leecher letztenendes noch drauf zahlen muss....

    \m/
     
Die Seite wird geladen...
Ähnliche Themen - htaccess robots txt Forum Datum
.htaccess Anpassung Web-Programmierung 27.10.2015
verzeichnis faken mit htaccess Web-Programmierung 29.10.2014
mit gesamter webseite in unterordner umziehen (htaccess) Web-Programmierung 30.01.2013
txt bearbeiten per formular Web-Programmierung 08.02.2011
Weiterleitung auf pseudoordner per htaccess Web-Programmierung 17.12.2010

Diese Seite empfehlen

Benutzerdefinierte Suche