Abbyy FineReader

Atalantia

Aktives Mitglied
Thread Starter
Dabei seit
26.11.2009
Beiträge
1.888
Reaktionspunkte
429
Hallo,
weiss jemand wie man im FineReader eine Dokumentprüfung macht? Ich habe ein PDF das aus Bildern besteht mit OCR eingelesen. Die Textfelder sind sichtbar und auswählbar aber die Dokumentprüfung bleibet ausgegraut.

A 2022-03-23 um 13.12.12.jpg
 
In Unkenntnis der Anwendung, und daher nur kurz rückgefragt:

Ist die Erkennung und Darstellung jener Textfelder denn gleich der Erkennung der Buchstaben (und deren Zusammensetzung zu Wörtern) in den Textfeldern? Oder anders: ist in dem Beispiel die Grafik bereits in Zeichen aufgelöst?
 
Ja, auch andere Felder die in Arial oder Monaco dargestellt sind zeigen das Gleiche.
 
Das war, denke ich, nicht die Frage.
Sind das Bilder, also Pixel, in dem PDF oder Schriften, also als echter Text dargestellt?
 
  • Gefällt mir
Reaktionen: fa66
Also eine Kopieren des erkannten »Textes« und Einfügen nach – sagen wir – TextEdit, liefert den ungebrochenschriftlichen Text:
»Bram Stoker’s Dracula ™ // Love never dies«?

Eine Erkennungssoftware kann m.W. nur auf Text angewendet werden. Würde auch schwierig, Schreibfehler in einer Bild zu ändern.
 
Nein, der Text wurde nicht richtig erkannt, darum will ich ja die Schreibkorrektur laufen lassen. Geht aber nicht, auch bei Blöcken mit klarerer Schrift Andale oder so.
 
Was du im Bildschirmfoto in #1 zeigst, sieht aber erst einmal nach erkannten zusammenhängenden Bild-/Grafik-Elementen aus. Auf diese kann sicher keine Korrekturhilfe angewendet werden.

Deshalb die obigen Rückfragen, worauf die Korrekturhilfe genau angewendet werden soll.

Im Scan sei also tatsächlich »Text« erkannt – und dann im Datenformat Text als Text in eine neue Datei ausgegeben worden.
Und auf diesen allerdings fehlerhaft erkannten Text versuchst du eine Rechtschreibungskorrekturhilfe anzuwenden, was aber scheitere. Stimmt diese Beschreibung der Sachlage?
 
Also, ich nehme ein besseres Beispiel.
Hier wurde der Text richtig erkannt. Er. lässt. sich auch rauskopieren. Trotzdem ist, wie im ersten Bild "Dokument prüfen" ausgegraut. Ob ich das Feld markiere oder Doppelklicke oder was auch immer.

A 2022-03-25 um 09.29.08.jpg
 
Trotzdem ist, wie im ersten Bild "Dokument prüfen" ausgegraut.
Du scheinst doch immer noch auf der Ebene eines Scans von Ringbuchseiten zu sein.
Auf diesen Ringbuchseitenscans (das sind Bilder) kann doch nichts korrigiert werden.

Das gescannte Bild muss von der OCR-Software erst zu lesen versucht werden – wobei der als Text erkannte Inhalt anschließend in eine neue Textdatei ausgegeben, voraussichtlich dann auch korrekturgelesen werden kann (so denn der OCR-Software zuarbeitende Korrekturhilfesoftware installiert ist).
 
  • Gefällt mir
Reaktionen: dg2rbf
Das ist genau das Problem. Der Text im grünen Feld ist schon OCR analysiert. Ich kann ihn auch kopieren. Aber ich kann keinen Text Kursor aktivieren um einzelne Wörter auszuwählen oder den ganzen Text zu markieren um dann die Prüfung zu starten.
 
Und wo ist die Datei mit dem Output der Analyse (sowas wie reiner Text)? Also die Datei, auf die man dann vrsl. eine Rechtschreibprüfung anwenden kann.
Im gezeigten Scan können keine Buchstaben getauscht oder Wörter ersetzt werden.
 
Ja, gute Frage. Klar ich kann die Datei als reinen Test exportieren, korrigieren und dann... nicht mehr importieren oder zumindest nicht so, dass sie Deckungsgleich mit den Bildern sind. Das Dokument umfasst etwa 100 Seiten.
 
Was erwartest du jetzt genau von OCR (Optical Character Recognition)?

Mal schrittweise:

1. Du hast eine gedruckte Vorlage, aus der du Text extrahieren willst, um diesen anderweitig – als Text – weiterverwenden zu können.

2. Der Scan-Software-Teil der OCR-Software tastet die Vorlage ab.

3. Der Erkennungs-Teil der OCR-Software versucht im Scan Bereiche zu identifizieren (oder in einem von dir aufgezogenen Bereich des Scans), in denen der Software nach Text zu finden sei.

4. Diese Bereiche werden dir angezeigt. — An vrsl. diesem Punkt befinden sich alle deine Bildschirmfotos.

5. Der Lese-Teil der OCR-Software wird jetzt von dir angewiesen, in den Text zu enthalten erkannten Bereichen den Text zu lesen und diesen in eine (neue/andere) Datei zu überführen, in der sich dann der gelesen geglaubte Text befindet.

6. Dieser Text in dieser (neuen/anderen) Datei lässt sich nun bearbeiten, korrekturlesen, softwareunterstützt korrekturlesen lassen. (Anhand deiner Korrekturen versucht der Scan-Lese-Teil der OCR-Software evtl., ihre Lese-Erkennung zu verbessern zu lernen.)

7. Der Inhalt jener letzten Datei, allfällig korrekturgelesen, verwendest du da weiter, wo du sie in anderen Dokumenttexten brauchst.
Kein, zumindest kein primärer Gegenstand einer OCR ist es, dir gleich ein komplett editierbares Layout aller gescannter Blattseiten samt etwaiger Bilder und Grafiken zu liefern.
 
1. Ein PDF File bestehend aus Bildern.
2. Genau.
3. OCR Software identifiziert die Scan Bereiche korrekt.
4. So ist es.
5. Nein, der OCR Teil des Buches aus Bildern, ist nun als erkannter Text im RAM.
6. Nein, dieser Text würde sich exportieren lassen in eine gewählte Datei (rtf, txt, word, pdf usw.)
7. Nein, der erkannte Text soll überlagert von den Bildern und nach der Korrektur in ein PDF File gespeichert werden. Abspeichern als erkanntes PDF mit Bildern geht ja auch. Das einzige was ich nicht machen kann ist den Text vor dem Speichern zu korrigieren.
 
Wenn ich die Funktionsmatrix auf der Homepage von Abbyy richtig interpretiere, sind viele der PDF-Funktionen in der Mac-Version nicht ausführbar. Eventuell gehört der gewünschte Workflow dazu.

https://pdf.abbyy.com/pricing/

(unter der Preisübersicht…)
 
  • Gefällt mir
Reaktionen: Atalantia
Das wird es sein. Kein Text editing.
 
Zurück
Oben Unten