Webcrawler

dms schrieb:
Nein, ist keine perfekte Lösung. :)

So einen Bot hab ich Dir in wenigen Minuten geschrieben. Gibt genug komandozeilenbasierte OCR-Tools, wie z.B. OOCR. Der Bot muss das Bild nur speichern und den Pfad an das Tool übergeben. Schon hab ich den Inhalt als Text. Glaube aber nicht dass das wirklich viele Bots machen. Nur möglich wäre es eben sehr leicht.
Dass es sogenannte OCR-Tools gibt weiß ich auch. Wenn schon ein Bild, dann auch mit verwischten Buchstaben, ineinandergeschrieben usw., so wie die kleinen Sicherheitsbildchen mit dem Code, ihr kennt die ja. :D

Dann wäre sogar das abschreiben erschwert. ;)

Eine perfekte Lösung gibt es nicht.
 
Micha, und wie geht das? Ich wüsste keine Lösung die man mal eben so umsetzen könnte. Sicher ist's bestimmt mit dem Quellcode irgendeines OpenSource-Browsers möglich. Nur das wäre doch dann echt stark oversized, dann schon eher ein Bot der Bilder auswertet. ;)

E-Mail als Bild ist mit Sicherheit die schlechteste Methode die man sich nur vorstellen kann. Ich kann die Mail-Adresse auch auf Suaheli vorlesen lassen. Die Audiodatei konvertiere ich dann in WMA, natürlich aber mit nem ordentlichen DRM-Schutz. Das ganze noch mit bzip2, 7zip und sit verpackt. Oder nagt das etwa an der Usability? :rolleyes:
 
dms schrieb:
Micha, und wie geht das? Ich wüsste keine Lösung die man mal eben so umsetzen könnte. Sicher ist's bestimmt mit dem Quellcode irgendeines OpenSource-Browsers möglich. Nur das wäre doch dann echt stark oversized, dann schon eher ein Bot der Bilder auswertet. ;)

E-Mail als Bild ist mit Sicherheit die schlechteste Methode die man sich nur vorstellen kann. Ich kann die Mail-Adresse auch auf Suaheli vorlesen lassen. Die Audiodatei konvertiere ich dann in WMA, natürlich aber mit nem ordentlichen DRM-Schutz. Das ganze noch mit bzip2, 7zip und sit verpackt. Oder nagt das etwa an der Usability? :rolleyes:

Naja, 5 min habe ich gebraucht um deine Seite
mit Javascript als reinen Text ausgeben zu lassen. ;)

Mein Tip zum selber testen (ich will jetzt keinen Bot Bau-
kasten) ins Forum stellen.
Sieh dich mal nach einem Browser namens Links+ um.
Kompiliere diesen unter OS X wie folgt:

Code:
./configure --enable-javascript

Das ganze Kompilieren etc. dauert gerade mal 1-2 Minuten.
Nun hast du nen Browser der dir deine so sichere
Javascript Methode sowas von aushebelt ;)
Das nette Ding hat auch einen "Dump" Befehl, bei dem
er die formatierte Seite auch noch in ne Datei speichert...
Stichwort grep.
Gut, bei der Dump Methode wird kein Javascript interpretiert,
da das ganze Ding aber unter GPL zur Verfügung gestellt wird,
sind es sicher nur 1-2 Stunden bis man das umgebaut hat...

So, nun du :D

Gruß, Micha

Nachtrag:
Kann ich dir ein Seite mit Bildern zur Verfügung stellen und
du baust ein Skript, was E-Mail Adressen ausliest?
Mal gucken was hier oversized ist. :)
 
@dms

Ich denke das ein Bild definitiv die sicherste
Methode ist, lass mich aber gerne eines
Besseren belehren! :)
Hier habe ich mal eine HTML Datei mit einem
Bild erstellt. Bin gespannt ob du das schaffst. :)


Code:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
	"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
  <meta http-equiv="content-type" content="text/html; charset=iso-8859-15" />
  <title>OCR Herausforderung</title>
  <style type="text/css">
    #email {
      margin: 0;
      padding: 0;
      background: url(email.gif) top left no-repeat #000;
      width: 121px;
      height: 19px;
    }
  </style>
</head>
<body>
<div id="email"></div>
</body>
</html>

Im Anhang die GIF Datei als ZIP und ein Screenshot.

Gruß, Micha
 

Anhänge

  • email.gif.zip
    705 Bytes · Aufrufe: 60
  • Screenshot.png
    Screenshot.png
    14,6 KB · Aufrufe: 60
Natürlich ist's "sicher" mit einem Bild. Es ist aber wie gesagt usabilitytechnisch einfach nur worst-case. Kannst Du natürlich machen wie Du magst, aber mir kommt sowas nicht auf die Seite. Wenn schon ein Grafikformat, dann doch am ehesten Flash. Dort kann man die Adresse auch als Link definieren und markier/kopierbar machen. Bringt blinden Menschen aber auch nichts.

Dass es mit dem Source eines OpenSource Browsers möglich ist hab ich ja schon geschrieben. Das brauchst Du mir nicht beweisen. Das es mit einer OCR-Software leicht möglich ist Grafiken in Text umzuwandeln sollte aber auch leicht nachvollziehbar sein, das brauche ich Dir wiederum nicht zu beweisen.

Wenn es Dir wirklich ausschliesslich um den Schutz Deiner Mail-Adresse geht, dann schreibe Dein CSS-Konstrukt noch mit JS in's Dokument. Mir geht es aber, wie schon tausend mal in diesem Thread erwähnt, um maximale Nutzbarkeit. Und deswegen ist eine Grafik für mich keine diskutable Alternative.
 
dms schrieb:
Natürlich ist's "sicher" mit einem Bild. Es ist aber wie gesagt usabilitytechnisch einfach nur worst-case. Kannst Du natürlich machen wie Du magst, aber mir kommt sowas nicht auf die Seite. Wenn schon ein Grafikformat, dann doch am ehesten Flash. Dort kann man die Adresse auch als Link definieren und markier/kopierbar machen. Bringt blinden Menschen aber auch nichts.

Dass es mit dem Source eines OpenSource Browsers möglich ist hab ich ja schon geschrieben. Das brauchst Du mir nicht beweisen. Das es mit einer OCR-Software leicht möglich ist Grafiken in Text umzuwandeln sollte aber auch leicht nachvollziehbar sein, das brauche ich Dir wiederum nicht zu beweisen.

Wenn es Dir wirklich ausschliesslich um den Schutz Deiner Mail-Adresse geht, dann schreibe Dein CSS-Konstrukt noch mit JS in's Dokument. Mir geht es aber, wie schon tausend mal in diesem Thread erwähnt, um maximale Nutzbarkeit. Und deswegen ist eine Grafik für mich keine diskutable Alternative.

Naja, deine Usability geht bei deaktivierten Javascript
(ja es gibt Leute die schalten das aus) auch verloren.
Dann bekommen die auch nur unsitbarunsichtbar vor-
gelesen oder was auch immer.
Egal!
Wenn ich meine E-Mail benutze, dann nur für PHP Skripte
die mittels Formulare gefüttert werden.
Denke damit kommen auch blinde Menschen klar.
Meine E-Mail veröffentliche ich niemals, habe ich noch nie,
und werde ich auch nicht.

Also, dann wünsche ich dir noch ein spamfreies 2006,
falls man sich nicht mehr schreibt :)

Gruß, Micha

P.S. Schade eingentlich, dass du kein OCR Skript schreiben
willst, hätte ich gerne mal gesehn :)
 
michanismus schrieb:
P.S. Schade eingentlich, dass du kein OCR Skript schreiben willst, hätte ich gerne mal gesehn :)
??? Er hatte oben schon erwähnt dass es OCR-Tools für die Kommandozeilen gibt. Einfach im Bot den Befehl für das OCR-Tool ausführen und fertig. Mehr ist da nicht.
 
Wenn ich einen Nutzen für mich darin sehen würde, kein Ding. Aber warum soll ich mir die Mühe machen was total sinnloses zu basteln?
 
Habe ich schon mal gesagt, das Eurer "Schlagabtausch" hoch interessant ist. Bitte regt euch nicht auf, höchstens an, das bringt einen weiter!

Kurz zurück zur eingangsfrage: hinterlassen Crawler beim Pagecounter Spuren... sprich: wird gezählt?
 
Discovery schrieb:
Kurz zurück zur eingangsfrage: hinterlassen Crawler beim Pagecounter Spuren... sprich: wird gezählt?
Nochmalerweise ja, da die Seite geladen werden muss, was ausreicht um den Pagecounter anzuwerfen. Zumindest müsste was in den Logfiles stehen.
z.B. habe ich in meinen Logfiles von gestern diesen Eintrag hier:
... "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Davor stand noch Datum, Uhrzeit usw.
 
Kommt drauf an wie der Zähler implementiert ist. Wenn er direkt in der Seite sitzt: Ja. Wenn es aber eine externe Datei (eine Grafik oder ein JS-Script) ist, dann eher nicht. Kommt natürlich auch drauf an was es für ein Bot ist. Google indiziert ja auch Grafiken und Flash-Dateien und angeblich auch JavaScript's.
 
dms schrieb:
Wenn es aber eine externe Datei (eine Grafik oder ein JS-Script) ist, dann eher nicht.
Eine Grafik wird normalerweise ja von dem Skript selbst generiert. Also wird trotzdem mitgezählt.
 
Sicher gibt es auch Counter die so umständlich vorgehen. Aber die meisten mir bekannten, vor allem die ganzen kostenfreien Services, zählen und generieren die Grafik extern. Aber ist ja wurscht. Dicovery wird schon wissen was für einen Counter er hat. :)
 
Discovery schrieb:
Und gleich noch eine Frage: wie kann man auf einfache Art und Weise die E-Mailadresse auf einer Webpage verschlüsseln, damit sie von Robotern nicht gelesen werden können?

Danke.

Discovery

Es sollte eine Verschlüsselung meistens ausreichen: E-Mail-Adresse kodieren.
 
Es ist nicht schwer ein Skript zu schreiben um die E-mail-Adresse wieder zu dekodieren.
 
Zurück
Oben Unten