Suche eine gute OCR-Software für alte Schriften

FA66, tolle Einsicht in dieses komplexe Thema. Danke für Deine Ausführungen.

Wenn ich schon mal so einen fachlich Gebildeten vor mir habe, dann hätte ich eine Frage, die mich seit einigen Monaten beschäftigt: ist ein PDF-Dokument nicht auch so ein Fall? Das wurde doch anscheinend erfunden, dass keiner was reinschreiben kann. Zumindest denke ich mir das so. - Aber kürzlich stellte ich fest, dass man auch einen PDF-Text wieder in ein WORD Dokument umwandeln kann. Dann müsste das doch so was wie OCR sein. Oder?

Cinober
 
Das wurde doch anscheinend erfunden, dass keiner was reinschreiben kann.
Nein. So nicht.
Das Format mag vor fahrlässigen Änderungen zu schützen versuchen. Und Formulare sollen ja sogar geändert werden können.

Vor allem hilft es, (wie auch Postscript, aus dem es entstand) ein verfertigtes Layout zu erhalten.
Und zwar in unterschiedlicher Reichweite: Die Schriften können miteingebettet sein – oder nur die benutzten Zeichen. Oder wenn nicht, dass zwar am Ziel eine Ersatzschrift für die Anzeige verwendet wird, aber etwa der Zeilenfall oder die Zeilenanzahl pro Blattseite erhalten bleiben soll.

Aber kürzlich stellte ich fest, dass man auch einen PDF-Text wieder in ein WORD Dokument umwandeln kann. Dann müsste das doch so was wie OCR sein
Eher nicht. Die umwandelnde Software schaut in den PDF-Code, und holt den sowieso vorhandenen Text heraus. Dann mag die Software interpretierbare Schriftarten herauslesen und, wenn am Ziel vorhanden, auch ins neue DOCX einbauen. Wenn’s gutläuft, kann auch erkanntes Layout dann mit Mitteln des Word-OpenXML nachgebaut werden.

Grenzen findet dieserart Umwandlung (das muss auch keine Rückumwandlung sein, falls die Quelle nie ein Word-Doc war) in im PDF eingebetteten Grafiken – oder Text als Grafiken. Ohne Weiteres können diese nur wieder als Grafiken im DOCX platziert werden. Da braucht’s dann den Zwischenschritt einer OCR. Aber der umwandelnden Software, sofern sie OCR kann, müsste erstmal klargemacht werden, dass und wo sie in Grafiken nach Textartigem fahnden soll.
 
  • Gefällt mir
Reaktionen: Cinober
Ich schrieb ja: ein Mittel des Herrschaftswissens. Eine auf die distinktiven Merkmale der einzelnen Buchstaben reduzierte Schrift kann jeder (pathologische Gründe mal ausgenommen) schnell erlernen, schreiben und lesen. Kanzleischriften können nicht auf schnelles Erlernen hin entwickelt worden sein.
Eine interessante, wenn auch gewagte These. Hast du dafür Belege? Schließlich konnten dazumal sowieso nur die wenigsten lesen.
Was Vertragstexte in Kanzleischriften damals, sind AGB-Bleiwüsten, in US-amerikanischen Texten bisweilen um Versaliensteppen angereichert, heute. Die Uneingeweihten sollen sie nicht lesen.
Das ist nun aber was völlig anderes. Da geht es um's Verstehen oder einfach um die Zeit, sie zu lesen. Das ist aber ein anderes "lesen" als bei den Kanzleischriften. Dort lesen als Verstehen/Erkennen der Zeichen, hier lesen als Verstehen des verklausulierten Inhalts. Völlig unabhängig von den Buchstaben.
 
Ok, die OCR-Ausgabe bedarf sowieso eines Gegenlesens. Wenn dann aber die Ausgangstexte gar nicht mehr menschlich gelesen werden können, weil die Lesepraxis und das Wissen über die Schrift fehlt, kann auch niemand mehr kontrollieren, ob die erkannte Zeichenfolge tatsächlich korrekt ist – oder ob ein Erkennungsfehler ein echter oder nur ein vermeintlicher ist:
Wurde »Jllustrirte« (Jlluſtrirte 𝔍𝔩𝔩𝔲𝔣𝔱𝔯𝔦𝔯𝔱𝔢) erkannt, muss man schon einschätzen können, ob das nun die Schreibweise der Zeit ist, in der der Text verfasst wurde und so korrekt ist – oder ob versales handschriftliches J 𝓙𝕵 und I 𝓘𝕴 vertauscht erkannt und ein e fallengelassen wurde. – Oder aber auch, ob das OCR-Ergebnis auch noch an modernen Rechtschreibgewohnheiten angepasst werden soll.
Das Problem überschreitet aber schon beinahe die Aufgabe von OCR. Das sind Fragen, die man sich unabhängig davon stellen muß, die man sich auch stellen muß, wenn ein Mensch die alten Tete auswertet und überträgt.
Übernimmt man Illustrirte oder Neger, oder passt man Rechtschreibung oder Sprachgebrauch an.
Ersteres überschreitet schon die Aufgaben von normaler OCR, da geht es darum, buchstabengetreu zu digitalisieren.
Letzteres ist dann irgendwie schon eine weitere Ebene, verlässt die Schreibung, wird aber aktuell wohl auch diskutiert. Wobei es für den Rechner keinen Unterschied macht.
Ersteres ließe sich sicher einigermaßen regeln, sofern es nicht um eingebundene Zitate geht, sondern um ganze Texte (OCR-Zusatzfunktion "Rechtschreibung vom Jahr x"), letzteres ist schon eher 1984-konforme orwellsche Umschreibung, ganz abgesehen davon, daß ja keineswegs allgemeiner Konsens ist, bei welchen Wörtern man Neusprech anwenden muß und wenn, dann welche aktuellen Ersatzwörter angebracht sind..
 
Eine interessante, wenn auch gewagte These. Hast du dafür Belege?
Nein. Es ist meine Bewertung.

Eine Bewertung, die aus dem (m.M.n.) faktischen Zweckes von Schrift und Schreiben erwächst. Eine bereits seit dem 16. Jh. (eigentlich schon früher mit dem Rinascimento) vorhandene »einfache« gedruckte (Grotesk–)Schrift wird durch komplizierte kursive Handschrift ersetzt, anstelle gleich und im Regelfall nur die bedeutungsstiftenden Linien der gedruckten Buchstaben als Schreibschrift nachzuzeichnen.
Sowas entlastet auch gleich in Bezug auf das Erlernen der Handhabung spezifischer Schreibgeräte: Federkiel, Stahl- und Kupferfedern…

ED: Man könnte die Entsachlichung der Schrift aber auch für eine spezielle Auswirkung der Entropie halten: bei dem Einen mit dem Ergebnis einer Verkrakelung, im Bureau dem einer Verkringelung.

Schließlich konnten dazumal sowieso nur die wenigsten lesen.
Wir reden aber schon vom 18. und 19. Jahrhundert? Etwa von Preußen mit seiner Schulpflicht seit Friedrich Wilhelm I.
Das dürfte ja die Hoch-Zeit der Kanzleischriften sein.

Das ist nun aber was völlig anderes
Richtig. Es geht dort um Lesen vs. Verstehen.

Trotzdem hat bspw. London Transport, die den Text auf den Zielschildern ihrer Busse und Bahnen traditionell in Versalschrift verfasst hat, auf Groß-/Kleinschrift umgestellt – mit Verweis auf europäische Inklusionsregelungen und schlicht Lesbarkeit.
Wenn das Inklusions-Argument hält, dann sind VERSALTEXTWÜSTEN IN DISCLAIMERN UND AGBS VOR ALLEM US-AMERIKANISCHER VERTRAGSVERFASSER ZUMINDEST IM EUROPÄISCHEN KONTEXT ALS ILLEGAL ZU BETRACHTEN UND WENN SIE NICHT UMGESTELLT WÜRDEN, MÖGLICHERWEISE ALS UNGÜLTIG ANFECHTBAR. MAL GANZ ZU SCHWEIGEN VOM SCHREIEN DES TEXTES.
 
Zuletzt bearbeitet:
Eine Bewertung, die aus dem (m.M.n.) faktischen Zweckes von Schrift und Schreiben erwächst. Eine bereits seit dem 16. Jh. (eigentlich schon früher mit dem Rinascimento) vorhandene »einfache« gedruckte (Grotesk–)Schrift wird durch komplizierte kursive Handschrift ersetzt, anstelle gleich und im Regelfall nur die bedeutungsstiftenden Linien der gedruckten Buchstaben als Schreibschrift nachzuzeichnen.
Sowas entlastet auch gleich in Bezug auf das Erlernen der Handhabung spezifischer Schreibgeräte: Federkiel, Stahl- und Kupferfedern…

Das klingt so, wie wenn du die Sütterlin oder die „Schreibschrift“ generell für unnötig bzw. weniger leserlich
und schwieriger zu erlernen und zu schreiben hältst als eine „geschriebene Druckschrift“.

Hast du aber sicher nicht so gemeint ... ?

Mit den dünnen Stahlfedern lernte man als Kind (des 19,/20.Jhd.) so schön schreiben, dass es uns heute
kaum vorstellbar erscheint ... das Lesen alter Postkarten und Texte aus der Zeit der Sütterlin macht richtig Freude.
Da hätte auch ein OCR Programm kein Problem, so akkurat wurde da teilweise geschrieben.
Ein „Nachschreiben von Druckschrift“ könnte niemals genauso akkurat aussehen, daher gibt es ja die
Schreibschriften. Aber wie gesagt, das hast du sicher auch nicht gemeint.
 
  • Gefällt mir
Reaktionen: Cinober
Jetzt geht es aber ab hier. Kostet mich 'ne Stunde, allein die Wörter nachzuschlagen.:)

Aber noch mal zurück zu meinem Ansinnen: ich frage mich schon seit 20 Jahren, warum man PDF überhaupt eingeführt hat. Und ich kam zu der Erkenntnis, dass man einen mit WORD (o.ä.) geschriebenen Text in PDF umwandelt, damit der Empfänger des "digitalen" Textes keine Veränderungen vornehmen und schlimmstenfalls den manipulierten Text weiter verschicken kann. Denn das kann ja so manche Konsequenzen heraufbeschwören. - So dachte ich mir das in meiner Einfalt.

Aber kürzlich fiel mir per Zufall auf, dass man aus PDF dann doch wieder WORD machen und daher den Text wieder verändern kann. Bin jetzt etwas ratlos, ob ich meinen Geschäftspartnern in Zukunft meine Texte nicht gleich per Mail als WORD-Datei schicken sollte, obwohl ich das eigentlich vermeiden will - aus oben genannten Gründen.

Ich stehe also ziemlich auf dem Schlauch - rein vom Verstehen der Materie her.

Cinober
 
... ich frage mich schon seit 20 Jahren, warum man PDF überhaupt eingeführt hat. Und ich kam zu der Erkenntnis, dass man einen mit WORD (o.ä.) geschriebenen Text in PDF umwandelt, damit der Empfänger des "digitalen" Textes keine Veränderungen vornehmen und schlimmstenfalls den manipulierten Text weiter verschicken kann. Denn das kann ja so manche Konsequenzen heraufbeschwören. - So dachte ich mir das in meiner Einfalt.
PDF ist eine Weiterentwicklung des Postscript (.ps) und ein Seitenbeschreibungsformat, das auf unterschiedlichen Plattformen immer das exakt gleiche Ergebnis zeigen soll.
 
Jetzt geht es aber ab hier. Kostet mich 'ne Stunde, allein die Wörter nachzuschlagen.:)

Aber noch mal zurück zu meinem Ansinnen: ich frage mich schon seit 20 Jahren, warum man PDF überhaupt eingeführt hat. Und ich kam zu der Erkenntnis, dass man einen mit WORD (o.ä.) geschriebenen Text in PDF umwandelt, damit der Empfänger des "digitalen" Textes keine Veränderungen vornehmen und schlimmstenfalls den manipulierten Text weiter verschicken kann. Denn das kann ja so manche Konsequenzen heraufbeschwören. - So dachte ich mir das in meiner Einfalt.

Aber kürzlich fiel mir per Zufall auf, dass man aus PDF dann doch wieder WORD machen und daher den Text wieder verändern kann. Bin jetzt etwas ratlos, ob ich meinen Geschäftspartnern in Zukunft meine Texte nicht gleich per Mail als WORD-Datei schicken sollte, obwohl ich das eigentlich vermeiden will - aus oben genannten Gründen.

Ich stehe also ziemlich auf dem Schlauch - rein vom Verstehen der Materie her.

Cinober

Lies auch nochmal Post #22 ... da ist das auch gut erklärt mit dem PDF.

Wenn du PDF verschickst, dann bekommt er es so wie von dir gewollt, er braucht KEIN Word und kein
anderes Layoutprogramm, nur den kostenlosen Reader.

Und nicht jeder hat die Programme, ein PDF zu öffnen und nach Belieben zu verändern.

PDF ist auch gedacht, um Dokumente unverändert öffnen und drucken zu lassen (wie schon von fa66 beschrieben,
Weiterentwicklung des EPS usw) mit eingebundenen Schriften usw.

Ein Spezialist kann natürlich immer manipulieren und verändern.
Ganz schwierig wird es, wenn man das verschleiern will, denn fast jedes Programm schreibt eine
Veränderung in den Quelltext rein und den kann jeder einsehen (TextEdit o.ä.)
 
  • Gefällt mir
Reaktionen: tungsten66 und Cinober
[...] damit der Empfänger des "digitalen" Textes keine Veränderungen vornehmen und schlimmstenfalls den manipulierten Text weiter verschicken kann. Denn das kann ja so manche Konsequenzen heraufbeschwören. [...]
Das - also das Sicherstellen der Integrität des Dokuments - erreichst du mit einer Digitalen Signatur. Die kannst du aber auf Word und PDF anwenden...
 
  • Gefällt mir
Reaktionen: Cinober
So langsam schnackelt's bei mir. PDF ist also keine Matrix, die wie ein Foto aus Bildpunkten besteht, die der Computer selber nicht deuten kann. Aber wir Menschen können es deuten. - Anscheinend werden im PDF-Text ASCII Codes verarbeitet, die man mit einem Editor auch auslesen kann. - Ich hoffe, das stimmt so.

Ich nutze unterwegs häufig ein Malprogramm zum Schreiben von Texten auf meinem Handy und verschicke dann ein PDF an Leute oder an mich selber. Meine Schreibschrift, so dachte ich immer, wird dann nicht als ASCII gespeichert sondern wie ein Foto einfach als Bild. Aber ein Editor könnte dann meine Sätze nicht lesen. Das könnte nur ein Mensch, der die Schrift entziffert.

Cinober
 
  • Gefällt mir
Reaktionen: ruerueka und Cinober
Zum PDF. Im PDF ist ein einfach der Text gespeichert. Nicht gross anders als in einem Word-Dokument.
Allerdings kann ein PDF auch Bilder enthalten. Handschriften werden garantiert als Bild eingebunden.
Plus den Sonderfall das Schrift auch mal in Pfade umgewandelt wird, dann schaut das aus wie normale Maschinenschrift ist aber eine "Vektorgrafik". In dem Fall müsste dann auch OCR angewendet werden.
 
  • Gefällt mir
Reaktionen: magfoo
Sehr komplex. Da weiß ich einfach zu wenig drüber.

Cinober
 
Das klingt so, wie wenn du die Sütterlin oder die „Schreibschrift“ generell für unnötig bzw. weniger leserlich
und schwieriger zu erlernen und zu schreiben hältst als eine „geschriebene Druckschrift“.
Zur Präzisierung:
Die »Leserlichkeit« (in einer der Lesarten des Wortes) ist sicher von der Handfertigkeit des Schreibers abhängig.

Die relative Lesbarkeit – und auch das Erlernen – ist m.E. aber von der Fülle oder dem Fehlen von für die Bedeutung eines Grafems unnötigen Zierat abhängig. Nicht umsonst sind alle jüngeren Schulschriftentwicklungen von Entfeinerungen im Verhältnis zur jeweils früheren Stufe geprägt.
(Ich weiß, dass es auch Befürworter eines Zurücks zur »lateinisch« genannten Kurrentschrift gibt – aber selbst die wollen kein Sütterlin mehr und erst recht keine kursive Kanzleischrift.)

Ich habe mich bereits als Erstklässler, der schon grundständig, wennauch nicht flüssig, Druckschrift schreiben und lesen konnte (fürs Lesen der Zielschilder an Bus und Straßenbahn hat’s gereicht) gefragt, warum ich mich denn schulheftevoll mit Schleifchen und Krückstöckchen befassen sollte, wenn doch alles Schriftgut drumrum nur in der einen oder anderen Druckschrift vorlag.

Nun gut. Heute kann ich trotzdem die Latein- und die Sütterlinschrift.

Ein „Nachschreiben von Druckschrift“ könnte niemals genauso akkurat aussehen, daher gibt es ja die Schreibschriften.
Wir reden bei Druckschrift (Blockschrift) als Handschrift aber schon von serifenlosen Zeichen? Mit dem Nachzeichnen meinte ich nicht, jede Serife einer üblichen Times oder Helvetica mitzuschreiben. Auch nicht die Form des »g« mit einer im Vergleich zum »g« nicht in éinem Zug schreibbaren Form (wohl bevorzuge ich handschriftlich das »Henkel-a« im Ggs. zum üblichen »a«).

Serifen helfen bei der Navigation in Zeilen gedruckten Mengentextes. Wer beim Handschreiben von Blockschrift nicht die Zeile halten kann, wird das m.E. bei einer Kurrentschrift auch nicht – und vice versa.

Hast du aber sicher nicht so gemeint ... ?
Relativ betracht ist Sütterlin, als Kurrentschrift, ein erheblicher Fortschritt zu jenen Kanzleischriften.

Beide zusammen, erst recht aber eben die Kanzleischriften, sind aber im Verhältnis zu von Grotesk-Druckschriften abgeleiteten un- oder nur wenig verbundenen Hand-Schriften komplizierter im Aufbau. Sinngemäß gilt dasgleiche für das Verhältnis der gebrochenen Schriften (»Fraktur«) und jenen teilweise bereits älteren grotesken.
 
Ich nutze unterwegs häufig ein Malprogramm zum Schreiben von Texten auf meinem Handy und verschicke dann ein PDF an Leute oder an mich selber. Meine Schreibschrift, so dachte ich immer, wird dann nicht als ASCII gespeichert sondern wie ein Foto einfach als Bild. Aber ein Editor könnte dann meine Sätze nicht lesen. Das könnte nur ein Mensch, der die Schrift entziffert.
Ja, das ist richtig, sofern du keine besonders schlaue App nimmst, die das Bild dann per OCR in Text umwandelt. Das wüsstest du aber, denn die App würde damit werben nud du hättest dafür bezahlt....
 
Zurück
Oben Unten