Abbyy FineReader

Atalantia · 23.03.2022

Hallo,
weiss jemand wie man im FineReader eine Dokumentprüfung macht? Ich habe ein PDF das aus Bildern besteht mit OCR eingelesen. Die Textfelder sind sichtbar und auswählbar aber die Dokumentprüfung bleibet ausgegraut.

fa66 · 23.03.2022

In Unkenntnis der Anwendung, und daher nur kurz rückgefragt:

Ist die Erkennung und Darstellung jener Textfelder denn gleich der Erkennung der Buchstaben (und deren Zusammensetzung zu Wörtern) in den Textfeldern? Oder anders: ist in dem Beispiel die Grafik bereits in Zeichen aufgelöst?

Atalantia · 24.03.2022

Ja, auch andere Felder die in Arial oder Monaco dargestellt sind zeigen das Gleiche.

Schiffversenker · 24.03.2022

Das war, denke ich, nicht die Frage.
Sind das Bilder, also Pixel, in dem PDF oder Schriften, also als echter Text dargestellt?

fa66 · 24.03.2022

Atalantia schrieb:
Ja,

Also eine Kopieren des erkannten »Textes« und Einfügen nach – sagen wir – TextEdit, liefert den ungebrochenschriftlichen Text:
»Bram Stoker’s Dracula ™ // Love never dies«?

Eine Erkennungssoftware kann m.W. nur auf Text angewendet werden. Würde auch schwierig, Schreibfehler in einer Bild zu ändern.

Atalantia · 24.03.2022

Nein, der Text wurde nicht richtig erkannt, darum will ich ja die Schreibkorrektur laufen lassen. Geht aber nicht, auch bei Blöcken mit klarerer Schrift Andale oder so.

fa66 · 24.03.2022

Was du im Bildschirmfoto in #1 zeigst, sieht aber erst einmal nach erkannten zusammenhängenden Bild-/Grafik-Elementen aus. Auf diese kann sicher keine Korrekturhilfe angewendet werden.

Deshalb die obigen Rückfragen, worauf die Korrekturhilfe genau angewendet werden soll.

Im Scan sei also tatsächlich »Text« erkannt – und dann im Datenformat Text als Text in eine neue Datei ausgegeben worden.
Und auf diesen allerdings fehlerhaft erkannten Text versuchst du eine Rechtschreibungskorrekturhilfe anzuwenden, was aber scheitere. Stimmt diese Beschreibung der Sachlage?

Atalantia · 25.03.2022

Also, ich nehme ein besseres Beispiel.
Hier wurde der Text richtig erkannt. Er. lässt. sich auch rauskopieren. Trotzdem ist, wie im ersten Bild "Dokument prüfen" ausgegraut. Ob ich das Feld markiere oder Doppelklicke oder was auch immer.

fa66 · 25.03.2022

Atalantia schrieb:
Trotzdem ist, wie im ersten Bild "Dokument prüfen" ausgegraut.

Du scheinst doch immer noch auf der Ebene eines Scans von Ringbuchseiten zu sein.
Auf diesen Ringbuchseitenscans (das sind Bilder) kann doch nichts korrigiert werden.

Das gescannte Bild muss von der OCR-Software erst zu lesen versucht werden – wobei der als Text erkannte Inhalt anschließend in eine neue Textdatei ausgegeben, voraussichtlich dann auch korrekturgelesen werden kann (so denn der OCR-Software zuarbeitende Korrekturhilfesoftware installiert ist).

Atalantia · 26.03.2022

Das ist genau das Problem. Der Text im grünen Feld ist schon OCR analysiert. Ich kann ihn auch kopieren. Aber ich kann keinen Text Kursor aktivieren um einzelne Wörter auszuwählen oder den ganzen Text zu markieren um dann die Prüfung zu starten.

fa66 · 26.03.2022

Und wo ist die Datei mit dem Output der Analyse (sowas wie reiner Text)? Also die Datei, auf die man dann vrsl. eine Rechtschreibprüfung anwenden kann.
Im gezeigten Scan können keine Buchstaben getauscht oder Wörter ersetzt werden.

Atalantia · 26.03.2022

Ja, gute Frage. Klar ich kann die Datei als reinen Test exportieren, korrigieren und dann... nicht mehr importieren oder zumindest nicht so, dass sie Deckungsgleich mit den Bildern sind. Das Dokument umfasst etwa 100 Seiten.

fa66 · 26.03.2022

Was erwartest du jetzt genau von OCR (Optical Character Recognition)?

Mal schrittweise:

1. Du hast eine gedruckte Vorlage, aus der du Text extrahieren willst, um diesen anderweitig – als Text – weiterverwenden zu können.

2. Der Scan-Software-Teil der OCR-Software tastet die Vorlage ab.

3. Der Erkennungs-Teil der OCR-Software versucht im Scan Bereiche zu identifizieren (oder in einem von dir aufgezogenen Bereich des Scans), in denen der Software nach Text zu finden sei.

4. Diese Bereiche werden dir angezeigt. — An vrsl. diesem Punkt befinden sich alle deine Bildschirmfotos.

5. Der Lese-Teil der OCR-Software wird jetzt von dir angewiesen, in den Text zu enthalten erkannten Bereichen den Text zu lesen und diesen in eine (neue/andere) Datei zu überführen, in der sich dann der gelesen geglaubte Text befindet.

6. Dieser Text in dieser (neuen/anderen) Datei lässt sich nun bearbeiten, korrekturlesen, softwareunterstützt korrekturlesen lassen. (Anhand deiner Korrekturen versucht der Scan-Lese-Teil der OCR-Software evtl., ihre Lese-Erkennung zu verbessern zu lernen.)

7. Der Inhalt jener letzten Datei, allfällig korrekturgelesen, verwendest du da weiter, wo du sie in anderen Dokumenttexten brauchst.
Kein, zumindest kein primärer Gegenstand einer OCR ist es, dir gleich ein komplett editierbares Layout aller gescannter Blattseiten samt etwaiger Bilder und Grafiken zu liefern.

Atalantia · 27.03.2022

1. Ein PDF File bestehend aus Bildern.
2. Genau.
3. OCR Software identifiziert die Scan Bereiche korrekt.
4. So ist es.
5. Nein, der OCR Teil des Buches aus Bildern, ist nun als erkannter Text im RAM.
6. Nein, dieser Text würde sich exportieren lassen in eine gewählte Datei (rtf, txt, word, pdf usw.)
7. Nein, der erkannte Text soll überlagert von den Bildern und nach der Korrektur in ein PDF File gespeichert werden. Abspeichern als erkanntes PDF mit Bildern geht ja auch. Das einzige was ich nicht machen kann ist den Text vor dem Speichern zu korrigieren.

Jayway · 27.03.2022

Wenn ich die Funktionsmatrix auf der Homepage von Abbyy richtig interpretiere, sind viele der PDF-Funktionen in der Mac-Version nicht ausführbar. Eventuell gehört der gewünschte Workflow dazu.

https://pdf.abbyy.com/pricing/

(unter der Preisübersicht…)

Atalantia · 28.03.2022

Das wird es sein. Kein Text editing.

Abbyy FineReader

Atalantia

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

Schiffversenker

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

fa66

Aktives Mitglied

Atalantia

Aktives Mitglied

Jayway

Aktives Mitglied

Atalantia

Aktives Mitglied