Anregung: Frontend für OCR Engine tesseract

palmann

palmann

Aktives Mitglied
Thread Starter
Dabei seit
07.04.2004
Beiträge
1.968
Reaktionspunkte
144
Hallo,

durch einen Artikel auf Pro-Linux [1] bin ich über einige Umwege auf das Tool tesseract [2] aufmerksam geworden. Dieses Tool ist eine OCR Engine, entwickelt von Google und steht unter der Apache Lizenz.

Nach dem Ändern von 2 includes im Quelltext war ich in der Lage das ganze auf meinem PowerBook mit dem gcc zu kompilieren. Das Tool funktioniert nach etwas Ausprobiererei ganz hervorragend, die Ergebnisse der Texterkennung können sich auf jeden Fall sehen lassen.

Wie Ihr vielleicht wisst (oder zumindest wie ich meine zu wissen) gibt es für Mac OS X momentan kein flottes OCR-Programm ohne dass man dafür ein paar Hunderter abdrücken muss. So wäre meine Anregung ein nettes Frontend für besagtes tesseract für Mac OS X zu schreiben, dass diese Lücke geschlossen wäre. Ich weis jetzt natürlich nicht im Detail, welche Einschränkungen die Apache License bedeutet, aber vielleicht kann sich jemand mit der Idee anfreunden. :)

Was meint ihr?

Gruesse, Pablo


[1] http://www.pro-linux.de/news/2008/13214.html
[2] http://code.google.com/p/tesseract-ocr/


EDIT: Ist wohl nicht von Google entwickelt, sondern nur da gehostet...

EDIT2: Kleine Anleitung zum Kompilieren auf Mac OS X:

Code:
MINI HOWTO - tesseract für Mac OS X
-----------------------------------

DOWNLOADS
Version 2.01 verwenden, Version 2.03 kompiliert nicht:
[URL]http://tesseract-ocr.googlecode.com/files/tesseract-2.01.tar.gz[/URL]

Sprachanpassung:
[URL]http://tesseract-ocr.googlecode.com/files/tesseract-2.00.deu.tar.gz[/URL]

INSTALLATION
In den 2 Quelldateien, bei denen die Kompilation abbricht, „arpa/inet.h” 
anstelle von „netinet/in.h” inkludieren.

Als User:
$ ./configure -prefix=/usr/local/tesseract
$ make

Als root:
# make install
# ln -s /usr/local/tesseract/bin/tesseract /usr/local/bin/

Sprachanpassung installieren
# cd /usr/local/tesseract/share
# mv tessdata/ tessdata.orig
# tar xzf /PATH/TO/tesseract-2.00.deu.tar.gz
# chmod -R 755 tessdata

ANWENDUNGSBEISPIEL
for i in *tif; do tesseract $i $i -l deu; done
 
Zuletzt bearbeitet:
Zurück
Oben Unten