PDFs in Ordner: Automatische Texterkennung?

mds

mds

Aktives Mitglied
Thread Starter
Dabei seit
19.07.2009
Beiträge
1.423
Reaktionspunkte
74
Hat jemand von Euch eine Lösung für automatisches OCR von (neuen) PDFs in einem Ordner im Einsatz?

Mit Abbyy FineReader und Adobe Acrobat Pro scheint es keine solche Möglichkeit zu geben. Ideal wäre eine OCR-Software, die ohne sichtbare Fenster im Hintergrund läuft …
 
finereader pro kann doch hotfolder, automator und applescript.

für total fensterlos: tesseract via macports/homebrew/tesseractocr mac.
von abbyy gibt noch es "cli ocr for linux", damit könnte man auf einer linuxmaschine einen hotfolder bauen.
 
  • Gefällt mir
Reaktionen: mds
FineReader Pro lässt mich offen gesagt etwas ratlos zurück. Die GUI zumindest zeigt nicht einmal eine Option für Nur-OCR von bestehenden PDFs an:

finereader.png


Und Hot Folder kann man sich via Automator und Calendar basteln, was aber wenig nutzerfreundlich ist. Als Hot Folder würde ich mir eigentlich wünschen, dass man einen Ordner bestimmt, wo jedes neue PDF sofort mit OCR behandelt wird. Adobe Acrobat in der aktuellen Version bedingt im Vergleich dazu ein paar Klicks, doch steht Nur-OCR für bestehende PDFs ohne weiteres zur Verfügung. PDFpen Pro geht noch weiter und bietet OCR automatisch an, wenn man einen bestehenden PDF-Scan öffnet, der noch keinen Text enthält.

Die anderen erwähnten Möglichkeiten sehe ich mir an.
 
bei show all ist auch nix dabei.
du könntest dir einen hotfolder auf dem mac via ordneraktion mit applescript basteln.
schau doch mal in die library mit dem applescripteditor.
hast du denn eine finereader lizenz?
---
mir persönlich gehen solche plattformunterschiedlichen features (hier win vs. mac) aber auch längst auf die nüsse und verwende nach möglichkeit oss.
wenn dir die kompiliererei nix ausmacht, kannst wirklich mal tesseract mit fswatch (hotfolder) testen. man muss sich halt eine gewisse tiefe in's shell scripting, und terminal eh', erarbeiten.
---
ich bin noch auf "pdf ocr x" gestossen, welches tesseract beinhaltet und kann das die tage mal testen. evtl. reicht das schon und du brauchst nicht erst mit macports/homebrew rummachen.
 
Zuletzt bearbeitet:
hast du denn eine finereader lizenz?

Ja, Pro-Version. Offen gesagt bin ich etwas enttäuscht. Ich hatte die ScanSnap-Version, die sehr unkompliziert OCR erledigt, und erhoffte mir Vorteile dieser gegenüber. Aber wie erwähnt kennt die Pro-Version nicht einmal einen Button für schlichtes OCR von bestehenden PDFs.

Vielen Dank jedenfalls für all die Tipps!
 
hast du die pro version jetzt erst gekauft? dann versuch sie zurückzugeben.
---
probiere gerade pdf ocr x community edition und kann bisher nix schlechtes erkennen, bis auf die manchmal nicht ganz korrekte formularerkennung (nur die feldanordnung, text wird richtig erkannt).
 
  • Gefällt mir
Reaktionen: mds
PDF OCR X in der Community Edition hat einen grossen Nachteil, nämlich die Beschränkung auf einseitige PDFs. Aber kein Problem, die Enterprise Edition darf sich gerne durch die Unterstützung für mehrseitige PDFs sowie den No-Prompt Mode differenzieren! :)
 
das check ich dann noch direkt in tesseract. ich hatte bisher immer nur 1-seitige scans. wir wollen das ding doch fensterlos hotfoldern lassen. es sei denn, dir reicht der no-prompt mode.
 
Zuletzt bearbeitet:
Schade finde ich jeweils, dass diese OCR-Anwendungen normalerweise keine eigene Hot Folder-Funktion mitbringen. Auf Anhieb sehe ich den Grund dafür nicht.
 
es gibt zu unterschiedliche scans, wenn du z.b. buchseiten und rechnungen betrachtest, wird das nicht mit einem setting klappen. vor allem dann nicht, wenn's um searchable pdf geht.

brauchst du eigentlich text oder pdf als output? und was wird hauptsächlich verarbeitet?
 
PDFs mit Text sollten resultieren. Heute verwende ich Acrobat Pro, FineReader (die ScanSnap-Version) und PDFpen Pro. Die Einstellungen passe ich normalerweise nicht an, was bislang gut funktioniert hat. Die Einstellungen sind allerdings für hohe Qualität eingestellt, wie es für ein Archiv auch notwendig ist. PDF OCR X ist auf den ersten Blick wirklich nett.
 
also searchable pdfs.
 
Aktueller Stand: Eine Kombination aus Hazel, PDF OCR x und PDF Signet hat sich bislang bewährt.
 
Wermutstropfen: Acrobat Pro erkennt Text mit Abstand am besten und schnellsten. Aber eben, man kann Acrobat Pro anscheinend nicht sinnvoll automatisieren …
 
das kann ich mir kaum vorstellen. früher gab's doch sachen wie batch processing, javascript usw.
ist das alles weg?
 
Innerhalb der App gibt es immer noch viele Funktionen. Aber ich habe bislang keine Möglichkeit gefunden, einen Hot Folder einzurichten und bei neuen PDFs OCR usw. automatisch durchführen zu lassen. Wenn es solche Möglichkeiten (immer noch / wieder) gibt, wäre ich sofort dabei … die Umsetzung dürfte auch etwas kosten.
 
ja, direkte hotfolder gibt's nur mit dem server.
ich muss mir das mal ansehen und durch den kopf gehen lassen. :p
 
Es gibt von Adobe ein Acrobat-Server-Produkt???
 
im hiesigen fall wäre es lifecycle pdf generator. das ist aber ein monster. das willst du nicht zuhause. :p
 
  • Gefällt mir
Reaktionen: mds
OK, ja …

Inzwischen verwende ich wieder PDFpen Pro.

PDF OCR X ist OK, unterstützt aber nur eine Sprache auf einmal, erstellt unerwünschte .bak-Dateien, die GUI ist pixelig (keine Retina-Unterstützung) und Support scheint es nicht zu geben.
 
Zurück
Oben Unten