OCR - Dokument soll erhalten bleiben!

TheMagnificent · 26.03.2006

Folgendes Szenario:

Ich habe etwa 5.000 Seiten über einen Duplex-Scanner eingescannt. Die einzelnen Dateien sind als PDF gespeichert. Leider hat der Scanner (genauer der Kopierer - Sharp AR-M236) keine Texterkennung.

Wenn ich nun ein Programm wie Readiris 11.0.4 benutze, um eine Texterkennung drüberlaufen zu lassen um so aus den PDFs durchsuchbare Dateien erstellen zu können, wird zwar ein neues Textdokument erstellt - jedoch wird nur der erkennbare Text in das neue Dokument übernommen. Es werden also die übrigen - nicht OCR-erkennbaren Teile - ausgelassen.

Wie kann ich das ändern? Das Programm soll das "Ur-Dokument" erhalten, aber eben nur den erkennbaren Text als solchen durchsuchbar machen.

Wenn ich z.B. mit meinem Canon LiDE 50 irgendwelche Seiten einscanne, werde hieraus automatisch Dokumente erstellt, welche 1:1 mit dem Original übereinstimmen, aber trotzdem durchsuchbar sind. Nur möchte ich ungern 5.000 Seiten per Hand einscannen.

Jemand eine Idee? Danke im Voraus.

TheMagnificent · 26.03.2006

Falls das mal irgendwann jemanden interessieren sollte: Mit dem Acrobat Professional 7.0 klappt das einwandfrei. Es dauert zwar etwas länger, scheint aber zu funktionieren.

peterpan56us · 11.10.2006

Ocr

Ich hab erst heute Posting gelesen. Weiss also nicht, ob Du mit Readiris schon weiter bist. Wen nich mich recht erinnerne gibts bei den Einstellungen ein Option Text - Bild / Bild - Text. Das bewirkt dann, dass die gescannte Seite im Vordergrund, der erkannt Text im Hintergrund in einem separaten Layer liegt. Klappt eigentlich sehr gut und schnell, ist nur in der Pro-Version nicht Batch-fähig. Wie machst Du das mit Adobe? Ich hab eine Reihe von Docs gescannt und dann über eine Batch-Prozedur erkennen lassen. Lader gibts ne ganz Reihe von Fehlermeldungen. Warum OCR einige Seiten einfach nicht erkennt, ist nicht nachvollziehbar. Hast Du einen speziellen Workflow?

Viele Grüße
Frank

OCR - Dokument soll erhalten bleiben!

TheMagnificent

Mitglied

TheMagnificent

Mitglied

peterpan56us

Mitglied