Spider entdecken

Dieses Thema im Forum "Web-Programmierung" wurde erstellt von maceis, 27.01.2006.

  1. maceis

    maceis Thread Starter MacUser Mitglied

    Beiträge:
    16.645
    Zustimmungen:
    596
    Registriert seit:
    24.09.2003
    hallo zusammen,

    ich habe mir ein kleines Skript (besser gesagt ein sub) geschrieben, das mir eine Email senden soll, wenn meine Sites gespidert werden.

    Da stellt sich mir die Frage, mit welchen User-agents solche Spider/Webcrawler/Bots denn überhaupt auftreten bzw. welche es gibt.
    Kennt jemand vielleich eine Seite, wo das irgendwie dokumentiert ist?

    Solange die ein bot irgendwo in Ihrem UA Eintrag haben ist ja alles ganz einfach, machne haben aber Namen wie "Heritrix", "YahooSeeker" oder "sitecheck.internetseer.com"

    Hintergrund ist, dass ich einerseits mal was für die Suchmaschinen Optimierung bestimmter Sites tun möchte und deswegen wissen möchte wie oft und von welchen Bots meine Sites gespidert werden und ich andererseits bestimmte Bots (z.B. psbot, der nur Bilder sucht) aussperren möchte.
     
  2. Duselette

    Duselette MacUser Mitglied

    Beiträge:
    443
    Zustimmungen:
    2
    Registriert seit:
    24.05.2005
    na dann mal viel spass: wenn geht, und die Seite einigermassen traffic hat, dann freue dich auf seeeehr viele Mails.

    1. ) Warum willst du das wissen?!?
    2. ) Nutze ordentliche Statistiken wie z.b. http://bbclone.de/ - sehr aussagekräftig und trennt sehr gut reale Nutzer von Spidern/Bots/Crawlern
    3. ) wenn du es partout nicht lassen kannst: im Quellcode von bbclone sollten anahaltspunkte zu finden sein, wie du eine trennung von Real/Spidern vornehmen kannst

    ah ja, ich überlas das letzte: für eine SEO ist bbclone hervorragend geeignet, da du direktes Feedback bekommst. Schaue es dir mal an, es ist auch einfachst zu integrieren (braucht nur php-Unterstützung) und du kannst alle relevanten Informationen gewinnen. Besser als "Email bei Spider"
     
  3. maceis

    maceis Thread Starter MacUser Mitglied

    Beiträge:
    16.645
    Zustimmungen:
    596
    Registriert seit:
    24.09.2003
    Sie Seite ist relativ neu und ich möchte versuchen etwas über den Zusammenhang zwischen Spidern und Erscheinen in den Suchmaschinen herausfinden.
    Die Mails werde ich natürlich nur anfangs lesen und das Skript später so erweitern, dass die Besuche nur gezählt werden.
    In der Startphase kommt es mir aber auch darauf an, *wann* die Bots auf meiner Seite sind.

    bbclone were ich nicht einsetzen, da die gesamte Site sonst kein PHP verwendet.
    Der Quellcode dürfte aber in der Tat interessant sein.
    Danke für den Tip.
     
  4. Duselette

    Duselette MacUser Mitglied

    Beiträge:
    443
    Zustimmungen:
    2
    Registriert seit:
    24.05.2005
    ??? ob deine Seite nun mit php was am hut hat oder nicht, ist bbclone egal ;)

    Ne im ernst: ich habe oder besser setze bbclone als Statistik bei fast jedem webprojekt ein. Ist ein guter mehrwert und erlaubt mir oder dem Betreiber eine sehr gute auswertung des traffics und der besuche.

    Es ist auch nicht schwer zu integrieren - du brauchst nur php auf dem webserver. Auch wirst du bei einem eigenen script nicht ohne php oder einer anderen scriptsprache auskommen, also wenn du eine elegante und schnell integrierbare lösung brauchst, dann nutze bbclone. Es spricht natürlich nichts gegen deine Idee - ausser, dass du irgendwann einfach nur noch mit mails bombardiert wirst.

    Oder: du zählst die bot-besuche in einem Counter (textdatei o.ä.) und lässt es dir einmal pro tag zumailen.
     
  5. mikne64

    mikne64 MacUser Mitglied

    Beiträge:
    3.097
    Zustimmungen:
    92
    Registriert seit:
    02.04.2004
    Zuletzt bearbeitet: 24.08.2006
  6. BalkonSurfer

    BalkonSurfer Banned

    Beiträge:
    5.164
    Zustimmungen:
    0
    Registriert seit:
    27.07.2003
    Warte 2 Wochen und schau Dir die Top-10 an - da siehst Du den MSN-Bot recht weit oben ;) - der dreht die letzten paar Wochen total durch

    Edit: 311 Besuche im Januar bis jetzt
    Edit2: 366 Besuche - da wuseln 2 Bots auf meiner Seite rum :cool:
     
  7. maceis

    maceis Thread Starter MacUser Mitglied

    Beiträge:
    16.645
    Zustimmungen:
    596
    Registriert seit:
    24.09.2003
    Naja, ganz so egal auch wider nicht.
    Da steht nur was vom Zählen, wie die Bots behandelt werden? k.A. -vermutlich werden beim Zählen auch die UAs ausgewertet.
     
  8. Duselette

    Duselette MacUser Mitglied

    Beiträge:
    443
    Zustimmungen:
    2
    Registriert seit:
    24.05.2005
    http://bbclone.de/demo/

    wie wäre es, wenn du dir das mal in Live anschaust ;) BTW: im regelfall solltest du Apache als Webserver haben und auch .htaccess files nutzen können.

    Ist aber alles haarklein beschrieben. Naja, ich wills dir ja nicht "verkaufen", insofern nehme meine Anmerkungen nur als Denkastösse. Wie gesagt, vielleicht findest du ja im Quellcode das was du suchst und implementierst deinen eigenen Botcounter.
     
  9. maceis

    maceis Thread Starter MacUser Mitglied

    Beiträge:
    16.645
    Zustimmungen:
    596
    Registriert seit:
    24.09.2003
    Für ne Live Demo sind die Zahlen im ersten Monat des laufenden Jahres wenig überzeugend ;):
    Oder die Übersetzng ist bescheiden ;).
     
  10. michanismus

    michanismus MacUser Mitglied

    Beiträge:
    434
    Zustimmungen:
    0
    Registriert seit:
    23.08.2004
    Hier hast du eine Liste mit User-Agent Strings
    der meisten Robots. Ich denke die Liste ist mehr
    als ausreichend. Ich hatte mal eine Liste die
    war sicher 5 mal so lang, aber da waren auch
    ne Menge Exoten drin.

    http://danzcontrib2.free.fr/en/useragents_robots.php

    Gruß, Micha
     

Diese Seite empfehlen