Spider entdecken

maceis

maceis

Aktives Mitglied
Thread Starter
Dabei seit
24.09.2003
Beiträge
16.880
Reaktionspunkte
626
hallo zusammen,

ich habe mir ein kleines Skript (besser gesagt ein sub) geschrieben, das mir eine Email senden soll, wenn meine Sites gespidert werden.

Da stellt sich mir die Frage, mit welchen User-agents solche Spider/Webcrawler/Bots denn überhaupt auftreten bzw. welche es gibt.
Kennt jemand vielleich eine Seite, wo das irgendwie dokumentiert ist?

Solange die ein bot irgendwo in Ihrem UA Eintrag haben ist ja alles ganz einfach, machne haben aber Namen wie "Heritrix", "YahooSeeker" oder "sitecheck.internetseer.com"

Hintergrund ist, dass ich einerseits mal was für die Suchmaschinen Optimierung bestimmter Sites tun möchte und deswegen wissen möchte wie oft und von welchen Bots meine Sites gespidert werden und ich andererseits bestimmte Bots (z.B. psbot, der nur Bilder sucht) aussperren möchte.
 
na dann mal viel spass: wenn geht, und die Seite einigermassen traffic hat, dann freue dich auf seeeehr viele Mails.

1. ) Warum willst du das wissen?!?
2. ) Nutze ordentliche Statistiken wie z.b. http://bbclone.de/ - sehr aussagekräftig und trennt sehr gut reale Nutzer von Spidern/Bots/Crawlern
3. ) wenn du es partout nicht lassen kannst: im Quellcode von bbclone sollten anahaltspunkte zu finden sein, wie du eine trennung von Real/Spidern vornehmen kannst

ah ja, ich überlas das letzte: für eine SEO ist bbclone hervorragend geeignet, da du direktes Feedback bekommst. Schaue es dir mal an, es ist auch einfachst zu integrieren (braucht nur php-Unterstützung) und du kannst alle relevanten Informationen gewinnen. Besser als "Email bei Spider"
 
Sie Seite ist relativ neu und ich möchte versuchen etwas über den Zusammenhang zwischen Spidern und Erscheinen in den Suchmaschinen herausfinden.
Die Mails werde ich natürlich nur anfangs lesen und das Skript später so erweitern, dass die Besuche nur gezählt werden.
In der Startphase kommt es mir aber auch darauf an, *wann* die Bots auf meiner Seite sind.

bbclone were ich nicht einsetzen, da die gesamte Site sonst kein PHP verwendet.
Der Quellcode dürfte aber in der Tat interessant sein.
Danke für den Tip.
 
??? ob deine Seite nun mit php was am hut hat oder nicht, ist bbclone egal ;)

Ne im ernst: ich habe oder besser setze bbclone als Statistik bei fast jedem webprojekt ein. Ist ein guter mehrwert und erlaubt mir oder dem Betreiber eine sehr gute auswertung des traffics und der besuche.

Es ist auch nicht schwer zu integrieren - du brauchst nur php auf dem webserver. Auch wirst du bei einem eigenen script nicht ohne php oder einer anderen scriptsprache auskommen, also wenn du eine elegante und schnell integrierbare lösung brauchst, dann nutze bbclone. Es spricht natürlich nichts gegen deine Idee - ausser, dass du irgendwann einfach nur noch mit mails bombardiert wirst.

Oder: du zählst die bot-besuche in einem Counter (textdatei o.ä.) und lässt es dir einmal pro tag zumailen.
 
Warte 2 Wochen und schau Dir die Top-10 an - da siehst Du den MSN-Bot recht weit oben ;) - der dreht die letzten paar Wochen total durch

Edit: 311 Besuche im Januar bis jetzt
Edit2: 366 Besuche - da wuseln 2 Bots auf meiner Seite rum :cool:
 
Duselette schrieb:
??? ob deine Seite nun mit php was am hut hat oder nicht, ist bbclone egal ;)
...
Naja, ganz so egal auch wider nicht.
http://help.bbclone.de/index.php?n=Setup.HomePage schrieb:
Note 3: BBClone is a PHP application, and will monitor *.php pages. BBClone cannot count *.html or *.htm pages, unless your website is running on an Apache webserver, and you can use .htaccess files. (This will be described in the setup instructions.)
Da steht nur was vom Zählen, wie die Bots behandelt werden? k.A. -vermutlich werden beim Zählen auch die UAs ausgewertet.
 
http://bbclone.de/demo/

wie wäre es, wenn du dir das mal in Live anschaust ;) BTW: im regelfall solltest du Apache als Webserver haben und auch .htaccess files nutzen können.

Ist aber alles haarklein beschrieben. Naja, ich wills dir ja nicht "verkaufen", insofern nehme meine Anmerkungen nur als Denkastösse. Wie gesagt, vielleicht findest du ja im Quellcode das was du suchst und implementierst deinen eigenen Botcounter.
 
Für ne Live Demo sind die Zahlen im ersten Monat des laufenden Jahres wenig überzeugend ;):
Bisheriges Jahr 1009663 Bisheriger Monat 97454
Oder die Übersetzng ist bescheiden ;).
 
Hier hast du eine Liste mit User-Agent Strings
der meisten Robots. Ich denke die Liste ist mehr
als ausreichend. Ich hatte mal eine Liste die
war sicher 5 mal so lang, aber da waren auch
ne Menge Exoten drin.

http://danzcontrib2.free.fr/en/useragents_robots.php

Gruß, Micha
 
Ah - sowas habe ich gesucht; Danke.
Jetzt gehts ans regexen ;)
 
wenn du lust hast, kannst du ja mal den code posten. Würde mich interessieren, wie du das gelöst hast
 
Was meinst Du jetzt?
Die regex oder den Teil, der die Mail schickt?
 
maceis schrieb:
Was meinst Du jetzt?
Die regex oder den Teil, der die Mail schickt?

mailfunktionen habe ich zur genüge ;) Aber die regex interessieren mich :cool:
 
Nun, da ist eigentlich nicht viel dran.
Ich geh die Liste durch und suche mir die raus, die mich interessieren.
Das sind primär die Großen (G+, Yaho, AltaVista, msn, alltheweb, ...)

Angefangen habe ich mit '$pattern = /bot|yahoo|crawl|seek|check/i'
Das habe ich dann noch um '|perl|lwp|pear' erweitert, wobei das eigentlich schon kaum noch relevant ist.
Nichts großartiges, nicht besonders optimiert und nichts, wo ich besonders viel darüber nachgedacht habe ;).
Läuft eh nur im Hintergrund, nachdem die Seite schon ausgeliefert wurde.
 
Zurück
Oben Unten