Acrobat 9 Pro OCR ClearScan 'schluckt' Satzteile

TimberSK

Mitglied
Thread Starter
Dabei seit
10.08.2014
Beiträge
43
Reaktionspunkte
2
Guten Abend,
am einfachsten ist mein Problem mit drei Bildern (s.u.) geschildert.
Es sind pro Dokument von etwa 20 Seiten Text meist nur ein bis drei Halbsätze, die verschwinden, ohne dass ich erkennen könnte, woran das liegt. Bislang ergänze ich es dann mit dem Schreibmaschinen-Werkzeug, aber ganz optimal ist das auch nicht.
Einstellungen: Sprache: Deutsch, Ausgabestil: ClearScan, 600 dpi
Weiß jemand Rat?

Bildschirmfoto 2017-02-23 um 23.36.18.png

Bildschirmfoto 2017-02-23 um 23.48.27.png

Bildschirmfoto 2017-02-23 um 23.36.35.png
 
Hallo TimberSK,
Das Problem liegt wohl, wie Du schon angenommen hast, bei der "Clearscan"-Ausgabe. Was vom OCR nicht erkannt wird (vermutlich wegen geringfügig mehr ineinander verschwimmender Zeichen), wird auch nicht ausgegeben.
Bei einem philosophisch/theologischen Text sollten sich in den etwas abgehobeneren Begriffen auch noch weitere Fehler (z.B. fl-Ligatur vs. H) ergeben.
Ein work-around liegt in der Auswahl des "Ausgabestils" "Durchsuchbares Bild", bei dem das ursprüngliche Schriftbild im Vordergrund erhalten bleibt; allerdings werden die jetzt ausgelassenen Stellen bei einer Textsuche (z.B. nach "Wirklichkeit") auch dann nicht gefunden. Ansonsten ist die Schreibmaschine nicht falsch, allerdings wird deren Text a.f.a.I.k. als Kommentar, also nicht gleichberechtigt mit dem restlichen Text behandelt. Möglich wäre noch ein Editieren mit Libre Office oder einem dedizierten Programm wie PDf-Expert o.ä.
 
Hallo tungsten66,
danke für deine Antwort!
Kurios ist folgendes:

1. Betroffene Seite über TouchUp-Werkzeug > Rechtsklick > Seite bearbeiten in Photoshop geöffnet, den ganzen Satz um wenige Pixel verschoben, gespeichert und wieder mit ClearScan versucht.
> gleiches Ergebnis, wie deine Erklärung nahelegt.

2. Wie 1. nur diesmal den ganzen Satz an den oberen Seitenrand, also außerhalb des Textblocks verschoben.
> Nun funktioniert die Umwandlung mit ClearScan einwandfrei, was deiner Erklärung nicht m.E.n. entspricht. Hast du dazu noch eine Idee? Dass andere Zeilen der betroffenen zu nahe sind, scheint auch nicht der Grund zu sein, wie ich in einem anderen Fall prüfen konnte (falls das unklar ist liefer ich gern nochmal Screenshots davon).

'Durchsuchbares Bild' als Ausgabestil ergibt leider auch ein deutlich weniger ansehnliches Ergebnis.
Und die genannten Nachteile der Schreibmaschine habe ich auch schon festgestellt und werde mir Libre Office einmal ansehen (Danke dafür), wenn sich keine andere Lösung findet. Die Anschaffung des PDF Expert wäre mir zu diesem Zeitpunkt etwas zu viel des Guten.
 
Hallo TimberSK.
Die Zeilenabstände sehen auf Deinen ersten screenshots sehr gut aus, und weil die Zeilen auch noch sehr gerade ausgerichtet sind, sollten wir sie als Ursache auschließen dürfen.
Was meinen Erklärungsversuch angeht, bin ich eher überrascht, dass Deine pixelweise Verschiebeaktion keine Veränderungen ergeben hat (gleich ob negativ oder positiv), als dass die großräumige Verschiebung Erfolg gebracht hat (Hast Du 'mal probiert, nur den ausgelassenen Ausschnitt leicht zu bewegen oder nur das "darüber." zu löschen?), weil der Augenschein wirklich keine Unterschiede zulasten des ausgelassenen Textes ergibt: Die Zeichenabstände sind eher gleichmäßiger und klarer als z.B. in "menschliche", Probleme mit Satellitenpünktchen oder grau durchscheinenden Rückseiten lassen sich zumindest bei der im browser möglichen Vergrößerung nicht erkennen. Leider gibt das OCR-Modul keine Auskunft, warum es die Untersuchung einer ganzen Zeile abgebrochen hat oder was es unternommen hat, um weiter zu kommen.
Beim "Durchsuchbaren Bild" sollte gewöhnlich das ursprüngliche Textbild erhalten bleiben, das ich persönlich auch im Fall Deiner screenshots als ruhiger empfinde. Hast Du schon einmal versucht, den auf diese Weise verfügbaren Text zu markieren, zu kopieren und z.B. in TextEdit einzufügen, um zu sehen, ob der mit "Clearscan" ausgelassene Text dann auch vollständig fehlt, oder an der Stelle wirre codes erscheinen?
 
(Hast Du 'mal probiert, nur den ausgelassenen Ausschnitt leicht zu bewegen oder nur das "darüber." zu löschen?)
Hatte ich, aber wohl nie in die richtige Richtung: einen Pixel nach unten und es funktioniert. Mein Eingangsproblem ist damit gelöst. (Die Zeile darüber zu löschen funktioniert ebenfalls.)

Beim "Durchsuchbaren Bild" sollte gewöhnlich das ursprüngliche Textbild erhalten bleiben, das ich persönlich auch im Fall Deiner screenshots als ruhiger empfinde.
Ruhiger ja, da stimme ich dir zu. Ich fand allerdings die Schärfe der Schrift bei ClearScan deutlich angenehmer als das ausgefranste Schriftbild des Scans (und entsprechend beim »Durchsuchbaren Bild«. Habe nun aber festgestellt, dass das Ergebnis des (kopier-/suchbaren) Textes bei »Durchsuchbares Bild« deutlich besser ist als bei ClearScan, wie du oben schon vermutet hattest. Außerdem ist die Dateigröße geringer, was nicht meiner Erwartung entsprach. Hatte mich vielleicht etwas zu schnell auf ClearScan festgelegt, aber habe ja nun die Wahl, nachdem ich weiß wie die Lücken zu vermeiden sind.
Nun wäre nur noch herauszufinden was der Unterschied zwischen »Durchsuchbares Bild« und »Durchsuchbares Bild (exakt)« ist, aber das werde ich wohl.

Hast Du schon einmal versucht, den auf diese Weise verfügbaren Text zu markieren, zu kopieren und z.B. in TextEdit einzufügen, um zu sehen, ob der mit "Clearscan" ausgelassene Text dann auch vollständig fehlt, oder an der Stelle wirre codes erscheinen?
Habe ich, und er fehlt vollständig.

Vielen Dank für den Beistand!

Edit:
Erwähnenswert ist vielleicht noch, dass mit »Durchsuchbares Bild« nun auch der zuvor mit ClearScan verschluckte Teil in Schrift gewandelt wird und nicht nur als Bild sichtbar bleibt.
 
Zuletzt bearbeitet:
Edit:
Erwähnenswert ist vielleicht noch, dass mit »Durchsuchbares Bild« nun auch der zuvor mit ClearScan verschluckte Teil in Schrift gewandelt wird und nicht nur als Bild sichtbar bleibt.
Dass da nichts verschluckt werden kann, sollte klar sein. Viel interessanter ist weswegen da überhaupt was verschluckt wurde. Vor allem da ich persönlich auch die ClearScan-Version bevorzuge. Die Dateien werden unglaublich kompakt und man kann eben den Text ohne Probleme kopieren/ändern.

Habe jetzt 3 sehr große Dateien via ClearScan mit Acrobat 10 und Acrobat 2017 bearbeitet und beim Überfliegen bisher keine verschluckten Teile gesehen. Manche Scans waren schon sehr schief.
 
Zurück
Oben Unten