Suche eine gute OCR-Software für alte Schriften

Wolfgang2 · 20.09.2020

Einen wunderschönen guten Tag

Gegeben ist ein Buch, das etwa 130 Jahre alt ist und damals gab es die Sütterlin-Schrift. Gibt es auch hierfür OCR-Sotftware?

Herzliche Grüße
Wolfgang Uhr

MacEnroe · 20.09.2020

Sütterlin als Druckschrift? :suspect:

Geht es um Schulbücher für die Unterstufe?
Sütterlin ist ja in erster Linie eine Schreibschrift, keine Druckschrift.

fa66 · 21.09.2020

Wolfgang2 schrieb:
Gegeben ist ein Buch, das etwa 130 Jahre alt ist und damals gab es die Sütterlin-Schrift.

Hmm? Die Sütterlinschrift ist aber keine 130 Jahre alt. Die wurde erst ab 1911 entwickelt, ab 1915 in Preußen eingeführt – und 1941 (zusammen mit den gebrochenen Schriften im Druck) bereits wieder abgeschafft.

Und wie MacEnroe bereits schrieb: Als Kurrentschrift ist diese über Lehrbücher ihrerselbst hinaus nicht gedruckt worden.

Vielleicht kannst du hier ja ein Textbeispiel als Foto einstellen.

Roman78 · 21.09.2020

Bei alten Büchern denke ich eher an die Fraktur-Schrift.

ruerueka · 21.09.2020

Abbyy FineReader kann das angeblich. Probiert habe ich es nicht.

tocotronaut · 21.09.2020

Jetzt würde mich ja ein beispielfetzen der Schrift interessieren.

bei einem Buch würde ich das eventuell Abschreiben lassen. (je nachdem, was eine Spezialsoftware kostet)

Schiffversenker · 21.09.2020

fa66 schrieb:
Als Kurrentschrift ist diese über Lehrbücher ihrerselbst hinaus nicht gedruckt worden.

Ich bin mir recht sicher, wenigstens ein Buch mit gedruckter Sütterlin gesehen zu haben.
Es könnte sich natürlich um ein Kinderbuch gehandelt haben, aber es war eindeutig kein Lehrbuch.

Bei der Formulierung von Wolfgang2 vermute ich allerdings auch, daß er eine Frakturschrift meint.

geronimoTwo · 21.09.2020

Nach ocr sütterlin gurgeln bringt mehrere Ergebnisse, sogar kostenloses – allerdings nur für PeeCee.

Wolfgang2 · 21.09.2020

tocotronaut schrieb:
Jetzt würde mich ja ein beispielfetzen der Schrift interessieren.

Nun diese Schrift ist als Beispiel gedacht. Im Grunde geht es mir darum, dass ich jede beliebige Schrift anlernen kann. Denn ich glaube nicht, dass es für ältere Schritten grundsätzlich schon Lösungen gibt.

MacEnroe · 21.09.2020

„Tesseract“ kann Fraktur lesen.

https://fynder.de/tutorial/mac-osx-kostenlose-texterkennung-tesseract-ocr-installieren-34.html

So wie ich das lesen, gehört das „Trainieren“ von Texten dazu.

Cinober · 21.09.2020

Er meint Fraktur. Sütterlin war eine Schreibschrift. Die kann man lernen. Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde. Und das kam fast nie vor - nur in Lehrbüchern.

Cinober

MacEnroe · 21.09.2020

Ja, das ist mittlerweile geklärt.
Es geht um das „Einlernen“ alter Schriften in einem OCR-Programm bzw. welches das kann.

Wolfgang2 · 21.09.2020

MacEnroe schrieb:
„Tesseract“ kann Fraktur lesen.

https://fynder.de/tutorial/mac-osx-kostenlose-texterkennung-tesseract-ocr-installieren-34.html

So wie ich das lesen, gehört das „Trainieren“ von Texten dazu.

Danke, das sehe ich mir mal an. ...

tocotronaut · 21.09.2020

Tesseract ist wirklich ein interessanter Ansatz.

Schiffversenker · 21.09.2020

MacEnroe schrieb:
Ja, das ist mittlerweile geklärt.
Es geht um das „Einlernen“ alter Schriften in einem OCR-Programm bzw. welches das kann.

Wenn das Programm einlernen kann, ist es völlig wurscht, um welche Schriften es geht.
Jedenfalls solange es sich um Buchstabenschriften handelt oder um Silbenschriften.
Bei Wortschriften wie etwa dem Chinesischen bleibt es machbar, wird aber sicher sehr aufwendig.

fa66 · 21.09.2020

Cinober schrieb:
Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde.

Das kommt aber i.d.R. davon, dass die Leute dann entweder aus der einfachen, entfeinerten und klaren Schulausgangsschrift, als die Sütterlin konzipiert war, ihre eigene Handschrift entwickelt haben – und dann gibt’s soviele Schriften, wie es Schreiber gibt;

oder wir reden von den Kanzlei- und irren Kursivschriften des 18. und 19. Jahrhunderts, die auf Schönheit, kalligrafischen Schnickschnack und/oder schwere Schlagseite hin verunleserlicht wurden – worin man sich in vorschreibmaschinlichen Kontor- und Kanzleistuben irgendwie zu überbieten versucht hat: Wer bei einem Schreibsystem im Verhältnis von 2:1:2 den erkennungstechnischen Kern eines Buchstabens auf 20% der Zeichenhöhe eindampfte, dafür Ober- und Unterlängen mit denen der Zeilen darüber und darunter verknotete, wollte Schreiben und Lesen zum Herrschaftswissen machen. Da war selbst Karl der Große mit seinen karolingischen Minuskeln schon weiter.

Schiffversenker · 21.09.2020

"verunleserlicht" ist ein wunderschönes Wort.
Trifft aber auf die Kanzleischriften des achtzehnten Jahrhunderts perfekt zu.

Aber wenigstens die Bürokraten damals müssen das wohl irgendwie gelesen haben, also sollte es eine Software heute auch hinkriegen.

Schiffversenker · 21.09.2020

Cinober schrieb:
Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde.

Da gibt es aber kaum einen Unterschied zu heute. Nur daß wir mit den Sauklauen heutiger Schreiber ein ganz klein wenig besser zurechtkommen, wenn auch oft mit Vermutungen.
Das wird aber wohl mit allen Schriften so sein. Kannst du sie von Kindheit an, kannst du auch "Schmiereien" lesen, hast du sie nur im Rahmen eines Sprachkurses gelernt, tust du dir enorm schwierig, wenn da wer was hinschmiert.

sxhc · 21.09.2020

Transkribieren ist schlicht Übungssache. Meist kann man den ersten Tag nur einzelne Wörter, am zweiten Sätze und am dritten Absätze lesen. Dann hat man sich an die "Hand" gewöhnt und liest das, wie gedrucktes Arial. Es sei denn, man hat das Vergnügen mit seiner Majestät dem letzten sächsischen König. Dessen Klaue war schon zu Lebzeiten berüchtigt. Oft konnte er es selbst nicht mehr lesen.

fa66 · 22.09.2020

Schiffversenker schrieb:
Aber wenigstens die Bürokraten damals müssen das wohl irgendwie gelesen haben,

Ich schrieb ja: ein Mittel des Herrschaftswissens. Eine auf die distinktiven Merkmale der einzelnen Buchstaben reduzierte Schrift kann jeder (pathologische Gründe mal ausgenommen) schnell erlernen, schreiben und lesen. Kanzleischriften können nicht auf schnelles Erlernen hin entwickelt worden sein.

Was Vertragstexte in Kanzleischriften damals, sind AGB-Bleiwüsten, in US-amerikanischen Texten bisweilen um Versaliensteppen angereichert, heute. Die Uneingeweihten sollen sie nicht lesen.

sxhc schrieb:
Transkribieren ist schlicht Übungssache. Meist kann man den ersten Tag nur einzelne Wörter, am zweiten Sätze und am dritten Absätze lesen. Dann hat man sich an die "Hand" gewöhnt und liest das, wie gedrucktes Arial.

Ja klar. Menschen. Die – mit Aufwand – das Wichtige und Distinktive im Schriftbild von den Verzierungen zu scheiden lernen. Wie aber will man einer Software bisweilen zufällige Verschlingungen von Text mehrerer Zeilen zu entwirren beibringen? Reicht die KI dafür bereits?

Ok, die OCR-Ausgabe bedarf sowieso eines Gegenlesens. Wenn dann aber die Ausgangstexte gar nicht mehr menschlich gelesen werden können, weil die Lesepraxis und das Wissen über die Schrift fehlt, kann auch niemand mehr kontrollieren, ob die erkannte Zeichenfolge tatsächlich korrekt ist – oder ob ein Erkennungsfehler ein echter oder nur ein vermeintlicher ist:
Wurde »Jllustrirte« (Jlluſtrirte 𝔍𝔩𝔩𝔲𝔣𝔱𝔯𝔦𝔯𝔱𝔢) erkannt, muss man schon einschätzen können, ob das nun die Schreibweise der Zeit ist, in der der Text verfasst wurde und so korrekt ist – oder ob versales handschriftliches J 𝓙𝕵 und I 𝓘𝕴 vertauscht erkannt und ein e fallengelassen wurde. – Oder aber auch, ob das OCR-Ergebnis auch noch an modernen Rechtschreibgewohnheiten angepasst werden soll.

Suche eine gute OCR-Software für alte Schriften

Wolfgang2

Aktives Mitglied

MacEnroe

Aktives Mitglied

fa66

Aktives Mitglied

Roman78

Aktives Mitglied

ruerueka

Aktives Mitglied

tocotronaut

Aktives Mitglied

Schiffversenker

Aktives Mitglied

geronimoTwo

Aktives Mitglied

Wolfgang2

Aktives Mitglied

MacEnroe

Aktives Mitglied

Cinober

Aktives Mitglied

MacEnroe

Aktives Mitglied

Wolfgang2

Aktives Mitglied

tocotronaut

Aktives Mitglied

Schiffversenker

Aktives Mitglied

fa66

Aktives Mitglied

Schiffversenker

Aktives Mitglied

Schiffversenker

Aktives Mitglied

sxhc

Aktives Mitglied

fa66

Aktives Mitglied

Ähnliche Themen