.htaccess und robots.txt

matt666

Neues Mitglied
Thread Starter
Registriert
13.10.2004
Beiträge
28
Hallo Leute,

ich habe ab und an das Problem das Leute meine Seite "spidern". Sprich da zieht sich jemand meine Seite, erzeugt massig traffic, um diese dann Lokal zu speichern. Inklusive aller Bilder etc....

Wie kann ich das verhindern?

Mit der robots.txt-Datei kann ich den Robots der Suchmaschinen mehr oder weniger gut einhalt gebieten (sofern die sich dran halten allow/denie).
Schönes Beispiel ist :

https://www.macuser.de/robots.txt

Das wird aber mein Problem nicht lösen.

Deswegen meine Frage, ist es möglich per .htaccess die Clients wie zB:
Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
auszusperren bzw umzuleiten ???

Hat da jemand bereits erfahrung gesammelt?

Danke - matt666
 

wegus

Moderator
Registriert
13.09.2004
Beiträge
17.488
Mit .htaccess kann man verschiedene Einstellungen der httpd.conf ändern, wenn diese das zuläßt ( AllowOverride). Unter anderem kann man es zur Authentifizierung via user/passwd nutzen um so den Zugang zu kontrollieren. Das das für bestimmte Browser-typen geht glaube ich nicht ( will es aber nicht ausschließen). In jedem Fall ist die Browser-Kennung nur ein String im http-header und damit leicht fälschbar ( Opera tritt häufig als IE auf!).
Eine genaue Beschreibung der .htaccess gibt es bei www.apache.org
 

matt666

Neues Mitglied
Thread Starter
Registriert
13.10.2004
Beiträge
28
Hallo wegus,
nach einiger suche hab ich eine Lösung gefunden:

# /block out spiders
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
RewriteRule ^.*$ http://www.httrack.com [L,R]

das in die .htaccess und die Seite von www.httrack.com wird opfer vom eigenen Tool - nicht die feine Art. Einen Seiten-Spider einsetzen ist auch nicht grade net...

Gruss matt666
 

wegus

Moderator
Registriert
13.09.2004
Beiträge
17.488
@matt666:
Ich sehe es, verstehe aber das wenigste davon! Das muß ich mir mal in Ruhe zusammenlesen! Ist aber gut zu wissen das es tatsächlich per .htaccess geht!
 
H

HAL

matt666 schrieb:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} .*grub-client.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library.*
RewriteRule ^.*$ http://www.httrack.com [L,R]

Und was machst Du, wenn ich in meinem Spider-Programm den
HTTP Agenten umbenenne, so das er vorgibt ein Webbrowser zu
sein? Willst Du den dann auch aussperren?

;)
 

matt666

Neues Mitglied
Thread Starter
Registriert
13.10.2004
Beiträge
28
@HAL

natürlich kann man nicht alles und jeden aussperren. Macht auch irgendwie keinen Sinn. Es nervt aber wenn jemand 1800 Dateien zieht und einiges a traffic erzeugt. Am ende bin ich derjenige der für den Traffic zahlt. Bei einer privaten Homepge ist das nicht lustig.

cu mAtt666
 
H

HAL

Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.
 

Pingu

Aktives Mitglied
Registriert
04.08.2003
Beiträge
4.963
HAL schrieb:
Das erzeugt nicht mehr Traffic wie ein eifriger Besucher, nur halt in kürzerer Zeit.
Dies stimmt so nicht. Wenn nämlich eine Website Datenbank gestützt ist, gibt es immer mehrere Wege, um an die gewünschte Information zu kommen. Ein menschlicher Besucher wird mit der Suche aufhören, wenn er die gesuchte Information gefunden hat. Ein Spider lädt gnadenlos alles. Egal, ob es später wirklich benötigt wird oder nicht.

Am schlimmsten hierbei verhält sich aber der Internet Explorer. Wenn bei diesem eine Website für das Offline lesen markiert ist und dieser Rechner trotzdem ständig online ist, dann lädt dieser die komplette Website mehrmals täglich (je nach Datenrate). Was vollkommen unnötigen Traffic verursacht. Zum Glück kann man dies aber auch am String erkennen (DigExt).

Pingu
 
Zuletzt bearbeitet:

matt666

Neues Mitglied
Thread Starter
Registriert
13.10.2004
Beiträge
28
@Pingu
jau, ein spider-tool zieht konsequent alles - egal ob die gewünschte info schon in der ersten seite war oder nicht. meistens geht es den usern um ein oder zwei bilder/infos...

ich habe mal meinen apache-logs ausgewertet. an dem tag wurde 2 mal ein spider-tool eingesetzt und hat 3600 seitenaufrufe generiert. was jeweils ca 30 Minuten gedauert hat. ich denke mal das in der zeit andere user zumindestens nur zäh mit seiten versorgt wurden.
datenvolume sprechen wir hier von ca. 161,00 MB -- da sind einige Bilder auf den seiten...

klar habe ich traffic inklusive. es kann aber nicht sein das ich für so ein paar leecher letztenendes noch drauf zahlen muss....

\m/
 
Oben