.htaccess und robots.txt

matt666 · 11.01.2005

Hallo Leute,

ich habe ab und an das Problem das Leute meine Seite "spidern". Sprich da zieht sich jemand meine Seite, erzeugt massig traffic, um diese dann Lokal zu speichern. Inklusive aller Bilder etc....

Wie kann ich das verhindern?

Mit der robots.txt-Datei kann ich den Robots der Suchmaschinen mehr oder weniger gut einhalt gebieten (sofern die sich dran halten allow/denie).
Schönes Beispiel ist :

https://www.macuser.de/robots.txt

Das wird aber mein Problem nicht lösen.

Deswegen meine Frage, ist es möglich per .htaccess die Clients wie zB:
Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
auszusperren bzw umzuleiten ???

Hat da jemand bereits erfahrung gesammelt?

Danke - matt666

wegus · 11.01.2005

Mit .htaccess kann man verschiedene Einstellungen der httpd.conf ändern, wenn diese das zuläßt ( AllowOverride). Unter anderem kann man es zur Authentifizierung via user/passwd nutzen um so den Zugang zu kontrollieren. Das das für bestimmte Browser-typen geht glaube ich nicht ( will es aber nicht ausschließen). In jedem Fall ist die Browser-Kennung nur ein String im http-header und damit leicht fälschbar ( Opera tritt häufig als IE auf!).
Eine genaue Beschreibung der .htaccess gibt es bei www.apache.org

matt666 · 11.01.2005

Hallo wegus,
nach einiger suche hab ich eine Lösung gefunden:

# /block out spiders
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
RewriteRule ^.*$ http://www.httrack.com [L,R]

das in die .htaccess und die Seite von www.httrack.com wird opfer vom eigenen Tool - nicht die feine Art. Einen Seiten-Spider einsetzen ist auch nicht grade net...

Gruss matt666

HAL · 11.01.2005

matt666 schrieb:
Seiten-Spider einsetzen ist auch nicht grade net...

Aber praktisch wenn man eine Seite in Ruhe offline anschauen möchte.

wegus · 11.01.2005

@matt666:
Ich sehe es, verstehe aber das wenigste davon! Das muß ich mir mal in Ruhe zusammenlesen! Ist aber gut zu wissen das es tatsächlich per .htaccess geht!

HAL · 11.01.2005

matt666 schrieb:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
RewriteRule ^.*$ http://www.httrack.com [L,R]

Und was machst Du, wenn ich in meinem Spider-Programm den
HTTP Agenten umbenenne, so das er vorgibt ein Webbrowser zu
sein? Willst Du den dann auch aussperren?

matt666 · 12.01.2005

@HAL

natürlich kann man nicht alles und jeden aussperren. Macht auch irgendwie keinen Sinn. Es nervt aber wenn jemand 1800 Dateien zieht und einiges a traffic erzeugt. Am ende bin ich derjenige der für den Traffic zahlt. Bei einer privaten Homepge ist das nicht lustig.

cu mAtt666

HAL · 12.01.2005

Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.

Pingu · 12.01.2005

HAL schrieb:
Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.

Dies stimmt so nicht. Wenn nämlich eine Website Datenbank gestützt ist, gibt es immer mehrere Wege, um an die gewünschte Information zu kommen. Ein menschlicher Besucher wird mit der Suche aufhören, wenn er die gesuchte Information gefunden hat. Ein Spider lädt gnadenlos alles. Egal, ob es später wirklich benötigt wird oder nicht.

Am schlimmsten hierbei verhält sich aber der Internet Explorer. Wenn bei diesem eine Website für das Offline lesen markiert ist und dieser Rechner trotzdem ständig online ist, dann lädt dieser die komplette Website mehrmals täglich (je nach Datenrate). Was vollkommen unnötigen Traffic verursacht. Zum Glück kann man dies aber auch am String erkennen (DigExt).

Pingu

matt666 · 18.01.2005

@Pingu
jau, ein spider-tool zieht konsequent alles - egal ob die gewünschte info schon in der ersten seite war oder nicht. meistens geht es den usern um ein oder zwei bilder/infos...

ich habe mal meinen apache-logs ausgewertet. an dem tag wurde 2 mal ein spider-tool eingesetzt und hat 3600 seitenaufrufe generiert. was jeweils ca 30 Minuten gedauert hat. ich denke mal das in der zeit andere user zumindestens nur zäh mit seiten versorgt wurden.
datenvolume sprechen wir hier von ca. 161,00 MB -- da sind einige Bilder auf den seiten...

klar habe ich traffic inklusive. es kann aber nicht sein das ich für so ein paar leecher letztenendes noch drauf zahlen muss....

\m/

.htaccess und robots.txt

matt666

Mitglied

wegus

MU Team

matt666

Mitglied

HAL

wegus

MU Team

HAL

matt666

Mitglied

HAL

Pingu

Aktives Mitglied

matt666

Mitglied