PDFs in Text konvertieren / OCR Software. Tipps gesucht

Haskelltier · 16.01.2018

Man kann dafür auch tesseract (https://github.com/tesseract-ocr/tesseract) nehmen. In Kombination mit ein paar anderen Opensource-Tools kann man damit eine schnelle Verarbeitung hinbekommen.

agrajag · 16.01.2018

Hat hier mal jemand ein paar Zahlen zu den Erkennungsraten der vorgeschlagenen Tools. Wann immer ich es mit OCR in Verbindung mit Briefverkehr versucht hatte, scheiterte es letztlich an der grundsätzlich zu schlechten Erkennungsrate (99,9% lässt immer noch viel zu viele Fehler durch) in Verbindung mit der Unfähigkeit der OSX-PDF-Reader fuzzy zu suchen. Sprich eine 0 als O, I als 1 und derlei typische Fehlerkennungen zu probieren. Wo man eigentlich denken sollte, daß genau diese Fehler schon von der OCR abgefangen werden sollten, wenn sie tatsächlich, wie immer behaupten, Wörterbücher benutzen. Mir sind jedenfalls Wörter wie 0ma nicht bekannt.

Und was die PDF-Reader angeht, muß ich sagen, daß ich von denen auf OSX einigermaßen entäuscht bin. Mal abgesehen davon, daß es scheinbar keinen gibt, der "0ma" findet, wenn ich "Oma" suche, nervt mich fast noch mehr, daß es außer dem Acrobat Reader (den ich überhaupt nicht leiden kann) keinen anderen gibt, der umgebrochene Wörter findet. Und das ist in deutschsprachigen Texten nicht gerade selten.

Witzigerweise gibt es für Android gleich mehrere PDF-Reader, die beides können.

Haskelltier · 17.01.2018

Das Problem ist, je nach Scanvorlage und Dokument (z.B. verwendetem Font) können die Erkennungsraten erheblich schwanken. Scants du bereits einmal schlecht gescannte und ausgedruckte Dokumente (oder kopierte Dokumente), dann sind die Ausgangsdaten erheblich schlechter als ein vernünftig gescannter Text und die Fehlerrate geht in die Höhe. Bei einem Font mit vielen ähnlichen Glyphen geht die Fehlerrate natürlich auch nach oben. Von daher sind solche Erkennungsrate eher wenig aussagekräftig und man sollte lieber selbst schauen, ob die Ergebnisse beim eigenen Workflow mit den eigenen Dokumenten passen oder eher nicht.
Den PDF-Readern mache ich bei typischen OCR-Fehlern wie vertauschte, ähnlich aussehende Zeichen keine Vorwürfe. Ich habe lieber eine konsistente Suchfunktion, die strikt das sucht, was eingegeben wurde, als eine Software, die automatisch nach Dingen sucht, von denen die Software meint, dass ich sie gemeint haben könnte.

agrajag · 17.01.2018

Ich hab schon bei originalen keine guten OCR-Ergebnisse bekommen. 10 Fehler sind viel zu viel. Ich muss mich drauf verlassen können, Dokument per Suche auch wiederfinden zu können. Es ist schon erstaunlich, daß es überhaupt Wörter wie "0ma", trotz Wörterbuch durch kommen.

Und eine Fuzzy-Suche sollte eigentlich zum standard gehören. Ich hab keine Lust jede simple Suche als Regex zu formulieren. Das kann der PDF-Viewer übdrnehmen. Und wenn du exakt suchen möchtest, ja dann machst du den Haken für fuzzy halt weg. Das ist doch kein Grund so ein Feature nicht anzubieten. Und solange OCR so unzuverässig ist, ist die Fuzzy-Suche unabdingbar. Oder ich kann mir den Quatsch auch ganz sparen - so wie ich es gerde mache. :/

agrajag · 17.01.2018

Ich probiere gerade mit Abbyy Finereader herum. Die Ergebnisse sind soweit gut, aber: das Teil taugt scheinbar nicht, um es automatisiert einzusetzen. Folgende Probleme:

es lässt sich nicht via Shell aufrufen
die Automator-Action besteht auf die Angabe eines bestimmten Ausgabepfades. Ich kann nicht sagen, daß es im Ordner der Quelldatei abgelegt werden soll oder an einen Relativen Pfad
es lässt sich scheinbar nicht verhindern, daß FineReader ein Fenster öffnet, was ärgerlich ist, da der Mini derzeit übergangsweise auch für Video zuständig ist. Ich kann dadurch nicht scannen, während z.B. die Kinder Fernsehen.

Der Workflow soll sein:

Ich scanne ein Dokument und der Scanner legt es in den FTP-Ordner auf dem Mini ab
Hazel erkennt die neue Datei und startet die OCR (derzeit via Automator)
Hazel verschiebt die OCRte Datei in seinen Zielordner

Mal abgesehen vom GUI-Schönheits-Problem scheitert es nun daran, daß FineReader die Datei nicht einfach die Quelldatei überschreibt. Ich könnte das Problem damit beheben, daß ich für jeden Ordner, worin der Scanner Scans ablegen kann, eigene Automator-Scripte anlege. Aber das widerstrebt mir zutiefst, weil ich das als unsauber empfinde.

Hat jemand eine Idee?

Ich hab eben auch die OCR von Cisdem ausprobiert, aber nach einem Versuch sofort wieder verworfen. Das ist für meine Zwecke überhaupt nicht brauchbar.

agrajag · 17.01.2018

Es schaut aus, als gäbe es einen Weg über AppleScript. Wenn AppleScript nur nicht so furchtbar wäre…

Da dachte ich, daß ich endlich mal was mit Automator hinbekommen würde und da scheitert es wieder an so was bescheuertem wie dem Ausgabepfad. Ich verstehe nicht, wie man mit dem Ding überhaupt was gescheites basteln kann. Und ich hab bislang nur eine einzige Funktion benutzt. Es ist also weit weg von komplex. :/

Haskelltier · 17.01.2018

Dein komisches Hazel scheint Bash-Skripte starten zu können. Du könntest das ganze also auch mit tesseract und einem Shell-Skript machen. Damit sollten die Möglichkeiten praktisch unbegrenzt sein.

Andi · 17.01.2018

agrajag schrieb:
Hat jemand eine Idee?

https://de.m.wikipedia.org/wiki/Tesseract_(Software)

agrajag · 17.01.2018

Das Problem ist, daß tesseract wohl nicht so trivial ist, um damit wirklich gute Ergebnisse zu erzielen. Zuerst müsste ich die PDFs in Einzelbilder zerlegen, diese dann durch die Texterkennung schicken und (zum Glück kann tesseract das selbst) ein durchsuchbares PDF erzeugen. Dann muss es noch durch Ghostscript gejagt werden, um das PDF wieder kleinzurechnen.

Und bis man das alles so eingestellt hat… Leider hab ich dazu noch kein "ich hab das schon ausprobiert. dies klappt für mich"-Snippet gefunden, worauf ich aufbauen könnte. Momentan fehlt mir dazu etwas der Nerv, mich da komplett von Null einzuarbeiten.

Was die Suche in PDFs angeht, scheint es wirklich nur den Adobe Reader zu geben. :-/ Na, wenigstens ist der aktuelle nicht mer so scheisse langsam, wie der, den ich zuletzt ausprobiert hatte (das war wirklich nicht zu ertragen). Allerdings sieht der immer noch scheisse aus. Aber das Schriftenrendering ist besser geworden.

agrajag · 17.01.2018

Im Übrigen ist Hazel kein "komisches" Tool.

Es ist die Eierlegendewollmilchsau, wenn es um die Automatisierung von Dateiworkflows angeht. Darüber läuft bei mir viel. Zum Teil mit automatischer Synchronisiation auf andere Rechner, wo dann auch ein Hazel weiter sortiert und macht und tut.

dreilinger · 17.01.2018

DevonThink pro Office arbeitet ja mit Abby.

Grundsätzlich lasse ich ja DevonThink meine OCR-PDFs verwalten.
Aber damit ich diese PDFs zusätzlich auch auf meine PCs nutzen kann, auch auf mein iPhone, schaufelt Chronosync diese PDFs in die Cloud.
Das Ziel kann ja auch dein FTP-Ziel sein.

Allerdings braucht DevonThink lange Einarbeitung um es seinen Wünschen anzupassen.

agrajag · 18.01.2018

Die gescannten Dateien sind nicht nur für mich. Da greifen teilweise auch Personen drauf zu, die keine oder ggf. eigene eigene Dateiverwaltung benutzen wollen. Daher muß das OCR eine eigenständige Stufe bleiben.

Haskelltier · 18.01.2018

agrajag schrieb:
Das Problem ist, daß tesseract wohl nicht so trivial ist, um damit wirklich gute Ergebnisse zu erzielen. Zuerst müsste ich die PDFs in Einzelbilder zerlegen, diese dann durch die Texterkennung schicken und (zum Glück kann tesseract das selbst) ein durchsuchbares PDF erzeugen. Dann muss es noch durch Ghostscript gejagt werden, um das PDF wieder kleinzurechnen.

Das erledigt jeweils ein Shell-Befehl. Wenn das schon zu schwierig ist, dann bastel mal mit dem Automator weiter, ist sicherlich wesentlich einfacher und scheint ja problemlos zu funktionieren.

agrajag schrieb:
Im Übrigen ist Hazel kein "komisches" Tool. Es ist die Eierlegendewollmilchsau, wenn es um die Automatisierung von Dateiworkflows angeht. Darüber läuft bei mir viel. Zum Teil mit automatischer Synchronisiation auf andere Rechner, wo dann auch ein Hazel weiter sortiert und macht und tut.

Bisher bin ich noch auf kein Problem gestoßen, das man nicht mit einem kleinen shell- oder python-Skript oder einem kleinen Programm lösen konnte. Vorteil hierbei, die Möglichkeiten sind praktisch grenzenlos und das ganze läuft platformunabhängig unter allen wichtigen Betriebsystemen. Aber gut, wenn „Hazel“ für dich funktioniert, nur zu.

dreilinger · 18.01.2018

Das verstehe ich nicht recht. Ob der OCR-PDF-Pool nun von Adobe, Abby, xeros usw. Erzeugt wird oder eben von DevonThink - ist doch egal.
Wenn DevonThink das OCR übernimmt landen alle PDFs in einem Ordner.
Wie man das von dort weiter verteilt ist doch wurscht. Hazel, chronosync, syncovery macht das schon.
Ich selbst habe jedenfalls im Endeffekt auf allen meinen Windowsrechner einen bestimmten Ordner in dem Tausende PDFs drin liegen. Diese wurden vorher, nach dem OCR, schlankgerechnet und nehmen nicht viel Platz weg. DevonThink ist schon die Luxusvariante um an gute OCR-PDFs zu kommen.

Olivetti · 18.01.2018

tesseract zum ausprobieren -> PDF OCR X

desweiteren gäbe es noch OCRKit, welches dann wieder mehrseitige behandeln kann und applescriptbar ist.
das wurde auch schon hier im forum verscriptet.

agrajag · 18.01.2018

Haskelltier schrieb:
Das erledigt jeweils ein Shell-Befehl. Wenn das schon zu schwierig ist, dann bastel mal mit dem Automator weiter, ist sicherlich wesentlich einfacher und scheint ja problemlos zu funktionieren.

Und diesen Unterton hälst du jetzt für angebracht, oder was? Du scheinst ja ein ganz geiler Hacker zu sein, daß es dir so mir nichts dir nichts leicht fällt einfach mal so schnell eine einzige Shell-Zeile aus dem Arsch zu ziehen, was über min. 3 Programmen, eventuell mit Schleife UND aus dem Stehgreif die richtige Parametrisierung parat hast, um ein möglichst gutes Ergebnis zu erziehlen. Diesen Grad an Geilheit erreiche ich leider nicht, sorry.

Bisher bin ich noch auf kein Problem gestoßen, das man nicht mit einem kleinen shell- oder python-Skript oder einem kleinen Programm lösen konnte. Vorteil hierbei, die Möglichkeiten sind praktisch grenzenlos und das ganze läuft platformunabhängig unter allen wichtigen Betriebsystemen. Aber gut, wenn „Hazel“ für dich funktioniert, nur zu.

Bestimmt kann man sowas auch mit einem Shell-Script erledigen. Wobei mir nicht bekannt ist, wie ich ein Shellscript an einen Ordner binden kann, so daß es erst losläuft, wenn sich in einem Ordner etwas ändert. Nur zu, lass mich Teilhaben an deiner Weisheit.

agrajag · 18.01.2018

Olivetti schrieb:
tesseract zum ausprobieren -> PDF OCR X

desweiteren gäbe es noch OCRKit, welches dann wieder mehrseitige behandeln kann und applescriptbar ist.
das wurde auch schon hier im forum verscriptet.

OCRKit hatte ich immer mal wieder ausprobiert, aber das gehört mit zu denen, die immer eine sehr schlechte Erkennungsrate haben. Ich bin mir auch gerade nicht sicher, aber das macht auch die PDFs immer unscharf.

agrajag · 18.01.2018

dreilinger schrieb:
Das verstehe ich nicht recht. Ob der OCR-PDF-Pool nun von Adobe, Abby, xeros usw. Erzeugt wird oder eben von DevonThink - ist doch egal.
Wenn DevonThink das OCR übernimmt landen alle PDFs in einem Ordner.
Wie man das von dort weiter verteilt ist doch wurscht. Hazel, chronosync, syncovery macht das schon.
Ich selbst habe jedenfalls im Endeffekt auf allen meinen Windowsrechner einen bestimmten Ordner in dem Tausende PDFs drin liegen. Diese wurden vorher, nach dem OCR, schlankgerechnet und nehmen nicht viel Platz weg. DevonThink ist schon die Luxusvariante um an gute OCR-PDFs zu kommen.

Ich müsste DevonThink auf den Mini installieren, der eigentlich nur zum Musik abspielen und als Datei/Resilio-Server dienen soll. Und es ist dann auch eine Preisfrage. Außerdem müsste ich dann nochmal auf dem PDF herumrechnen, da DT die PDFs wieder deutlich aufbläht, wenn ich es richtig in erinnerung habe. Und ich will nicht, waß es die PDFs in seine merkwürdige Ordnerstruktur sortiert, die, wenn man nur via Dateibrowser auf die Daten möchte, "etwas" unhandlich ist.

Deshalb favorisiere ich die dezidierte OCR-Variante. Ich lasse mich aber auch eines besseren belehren.

Haskelltier · 18.01.2018

Und diesen Unterton hälst du jetzt für angebracht, oder was?

Ich finde deine Herangehensweise nur interessant. Bei tesseract schreibst du, dass eine Lösung wohl nicht trivial sei und du diese Möglichkeit daher verwirfst, dein Lösungsweg mit dem Automator scheint aber auch nicht trivial zu sein, aber den verfolgst du hartnäckig. Motiviert nicht gerade dazu dir zu helfen (werde ich daher auch nicht mehr tun).

Du scheinst ja ein ganz geiler Hacker zu sein, daß es dir so mir nichts dir nichts leicht fällt einfach mal so schnell eine einzige Shell-Zeile aus dem Arsch zu ziehen, was über min. 3 Programmen, eventuell mit Schleife UND aus dem Stehgreif die richtige Parametrisierung parat hast, um ein möglichst gutes Ergebnis zu erziehlen. Diesen Grad an Geilheit erreiche ich leider nicht, sorry.

Eine Lösungsidee hast du ja schon, das ist im Prinzip schon mehr als die halbe Miete. Den Rest kannst du dir ergoogeln oder schlägt man in den manpages/Dokumentation der verwendeten Befehle nach. Wenn du beispielsweise nach „loop shell script“ suchst, bekommst du genug Infos zu Schleifen in shell-Skripten. Die genaue Befehlssyntax der Programme für deine Zwecke kenne ich natürlich auch nicht, aber die schlägt man nach (oder googelt). Dann noch alles kombinieren und fertig.

Bestimmt kann man sowas auch mit einem Shell-Script erledigen. Wobei mir nicht bekannt ist, wie ich ein Shellscript an einen Ordner binden kann, so daß es erst losläuft, wenn sich in einem Ordner etwas ändert. Nur zu, lass mich Teilhaben an deiner Weisheit.

Du kannst Pfade als Variablen in deinem Shell-Skript hinterlegen und die Variablen an den passenden Stellen in deinen Befehlen benutzen. Das Skript kannst du dann beispielsweise per launchdaemon alle 10 Minuten aufrufen. Das Skript schaut dann einfach nach, ob in einem (oder mehreren) Ordner pdf-Dateien liegen. Wenn nein, tut er nichts (das Skript braucht also nur Ressourcen, wenn auch wirklich was zu tun ist), wenn ja verarbeitet er nach und nach alle pdf-Dateien, verschiebt die Ergebnisse in einen „Ergebnisordner“ und löscht oder verschiebst die Originaldaten. Damit hast du dann in maximal 10 Minuten nach Dateieingang dein Ergebnis.

dreilinger · 18.01.2018

Guten Morgen.
DevonThink ist Kanonen auf Spatzen. Und erstmal kostenintensiv. SSD im System, bei großen Datenbanken, wäre nicht schlecht wenn das Booten keine 15 Minuten dauern soll (ab El Capitan).
Die Demoversion ist bis einer begrenzten Anzahl von Daten unbegrenzt lauffähig.

Die PDFs sind hier nicht aufgebläht, deswegen gebe ich hier ja meinen Senf dazu.
Jedenfalls wenn man alles richtig einstellt.

Ich persönlich scanne mit einem Dokumentenscanner mit 300 DPI. Diese Datei landet in der Inbox von DevonThink.
Das OCR beginnt. Dabei war ich erstaunt, dass die Abbyengine selbst 5 Punktschrift greift. Anschließend wird der 300 dpi-Scan auf ca. 800x600 runtergerechnet. Die PDF, eine Seite A4, ja nach dem, ist dann mit OCR Layer, ca. 230kb groß. Ich habe mittlerweile 15.000 PDFs in meinem Ordner, das sind in der Summe etwas um die geschätzten 5GB (müsste ich nachsehen).

Nachtrag: bei 15.333 PDFs sind das 5,2 GB

Gepeichert wird das nativ in einem Ordner von DevonThink. Dieser hat noch 16 Unterordner (0 bis 9, a bis f). Diese Orner werden kaskadenmäßig, chaotisch aufgefüllt.

Somit sind die PDFs unabhängig von DevonThink. Diesen PDF-Ordner greife ich nur ab und verteile ihn auf andere Rechner.
So kommen die sogar auf mein IPhone.

PDFs in Text konvertieren / OCR Software. Tipps gesucht

Haskelltier

unregistriert

agrajag

Aktives Mitglied

Haskelltier

unregistriert

agrajag

Aktives Mitglied

agrajag

Aktives Mitglied

agrajag

Aktives Mitglied

Haskelltier

unregistriert

Andi

Aktives Mitglied

agrajag

Aktives Mitglied

agrajag

Aktives Mitglied

dreilinger

Aktives Mitglied

agrajag

Aktives Mitglied

Haskelltier

unregistriert

dreilinger

Aktives Mitglied

Olivetti

Aktives Mitglied

agrajag

Aktives Mitglied

agrajag

Aktives Mitglied

agrajag

Aktives Mitglied

Haskelltier

unregistriert

dreilinger

Aktives Mitglied