Suche eine gute OCR-Software für alte Schriften

W

Wolfgang2

Aktives Mitglied
Thread Starter
Dabei seit
26.10.2018
Beiträge
379
Reaktionspunkte
169
Einen wunderschönen guten Tag

Gegeben ist ein Buch, das etwa 130 Jahre alt ist und damals gab es die Sütterlin-Schrift. Gibt es auch hierfür OCR-Sotftware?

Herzliche Grüße
Wolfgang Uhr
 
Sütterlin als Druckschrift? :suspect: Geht es um Schulbücher für die Unterstufe?
Sütterlin ist ja in erster Linie eine Schreibschrift, keine Druckschrift.
 
Gegeben ist ein Buch, das etwa 130 Jahre alt ist und damals gab es die Sütterlin-Schrift.
Hmm? Die Sütterlinschrift ist aber keine 130 Jahre alt. Die wurde erst ab 1911 entwickelt, ab 1915 in Preußen eingeführt – und 1941 (zusammen mit den gebrochenen Schriften im Druck) bereits wieder abgeschafft.

Und wie MacEnroe bereits schrieb: Als Kurrentschrift ist diese über Lehrbücher ihrerselbst hinaus nicht gedruckt worden.

Vielleicht kannst du hier ja ein Textbeispiel als Foto einstellen.
 
Bei alten Büchern denke ich eher an die Fraktur-Schrift.
 
  • Gefällt mir
Reaktionen: Cinober
Abbyy FineReader kann das angeblich. Probiert habe ich es nicht.
 
  • Gefällt mir
Reaktionen: dodo4ever
Jetzt würde mich ja ein beispielfetzen der Schrift interessieren.

bei einem Buch würde ich das eventuell Abschreiben lassen. (je nachdem, was eine Spezialsoftware kostet)
 
Zuletzt bearbeitet:
Als Kurrentschrift ist diese über Lehrbücher ihrerselbst hinaus nicht gedruckt worden.
Ich bin mir recht sicher, wenigstens ein Buch mit gedruckter Sütterlin gesehen zu haben.
Es könnte sich natürlich um ein Kinderbuch gehandelt haben, aber es war eindeutig kein Lehrbuch.

Bei der Formulierung von Wolfgang2 vermute ich allerdings auch, daß er eine Frakturschrift meint.
 
Nach ocr sütterlin gurgeln bringt mehrere Ergebnisse, sogar kostenloses – allerdings nur für PeeCee.
 
Jetzt würde mich ja ein beispielfetzen der Schrift interessieren.

Nun diese Schrift ist als Beispiel gedacht. Im Grunde geht es mir darum, dass ich jede beliebige Schrift anlernen kann. Denn ich glaube nicht, dass es für ältere Schritten grundsätzlich schon Lösungen gibt.
 
Er meint Fraktur. Sütterlin war eine Schreibschrift. Die kann man lernen. Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde. Und das kam fast nie vor - nur in Lehrbüchern.

Cinober
 
Ja, das ist mittlerweile geklärt.
Es geht um das „Einlernen“ alter Schriften in einem OCR-Programm bzw. welches das kann.
 
Tesseract ist wirklich ein interessanter Ansatz.
 
Ja, das ist mittlerweile geklärt.
Es geht um das „Einlernen“ alter Schriften in einem OCR-Programm bzw. welches das kann.
Wenn das Programm einlernen kann, ist es völlig wurscht, um welche Schriften es geht.
Jedenfalls solange es sich um Buchstabenschriften handelt oder um Silbenschriften.
Bei Wortschriften wie etwa dem Chinesischen bleibt es machbar, wird aber sicher sehr aufwendig.
 
Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde.
Das kommt aber i.d.R. davon, dass die Leute dann entweder aus der einfachen, entfeinerten und klaren Schulausgangsschrift, als die Sütterlin konzipiert war, ihre eigene Handschrift entwickelt haben – und dann gibt’s soviele Schriften, wie es Schreiber gibt;

oder wir reden von den Kanzlei- und irren Kursivschriften des 18. und 19. Jahrhunderts, die auf Schönheit, kalligrafischen Schnickschnack und/oder schwere Schlagseite hin verunleserlicht wurden – worin man sich in vorschreibmaschinlichen Kontor- und Kanzleistuben irgendwie zu überbieten versucht hat: Wer bei einem Schreibsystem im Verhältnis von 2:1:2 den erkennungstechnischen Kern eines Buchstabens auf 20% der Zeichenhöhe eindampfte, dafür Ober- und Unterlängen mit denen der Zeilen darüber und darunter verknotete, wollte Schreiben und Lesen zum Herrschaftswissen machen. Da war selbst Karl der Große mit seinen karolingischen Minuskeln schon weiter.
 
  • Gefällt mir
Reaktionen: Cinober und Schiffversenker
"verunleserlicht" ist ein wunderschönes Wort.
Trifft aber auf die Kanzleischriften des achtzehnten Jahrhunderts perfekt zu.

Aber wenigstens die Bürokraten damals müssen das wohl irgendwie gelesen haben, also sollte es eine Software heute auch hinkriegen.
 
Aber die Leute haben damit so unleserlich geschrieben, dass man Briefe kaum "übersetzen" kann. Das geht nur, wenn ganz langsam geschrieben wurde.
Da gibt es aber kaum einen Unterschied zu heute. Nur daß wir mit den Sauklauen heutiger Schreiber ein ganz klein wenig besser zurechtkommen, wenn auch oft mit Vermutungen.
Das wird aber wohl mit allen Schriften so sein. Kannst du sie von Kindheit an, kannst du auch "Schmiereien" lesen, hast du sie nur im Rahmen eines Sprachkurses gelernt, tust du dir enorm schwierig, wenn da wer was hinschmiert.
 
Transkribieren ist schlicht Übungssache. Meist kann man den ersten Tag nur einzelne Wörter, am zweiten Sätze und am dritten Absätze lesen. Dann hat man sich an die "Hand" gewöhnt und liest das, wie gedrucktes Arial. Es sei denn, man hat das Vergnügen mit seiner Majestät dem letzten sächsischen König. Dessen Klaue war schon zu Lebzeiten berüchtigt. Oft konnte er es selbst nicht mehr lesen.
 
Aber wenigstens die Bürokraten damals müssen das wohl irgendwie gelesen haben,
Ich schrieb ja: ein Mittel des Herrschaftswissens. Eine auf die distinktiven Merkmale der einzelnen Buchstaben reduzierte Schrift kann jeder (pathologische Gründe mal ausgenommen) schnell erlernen, schreiben und lesen. Kanzleischriften können nicht auf schnelles Erlernen hin entwickelt worden sein.

Was Vertragstexte in Kanzleischriften damals, sind AGB-Bleiwüsten, in US-amerikanischen Texten bisweilen um Versaliensteppen angereichert, heute. Die Uneingeweihten sollen sie nicht lesen.

Transkribieren ist schlicht Übungssache. Meist kann man den ersten Tag nur einzelne Wörter, am zweiten Sätze und am dritten Absätze lesen. Dann hat man sich an die "Hand" gewöhnt und liest das, wie gedrucktes Arial.
Ja klar. Menschen. Die – mit Aufwand – das Wichtige und Distinktive im Schriftbild von den Verzierungen zu scheiden lernen. Wie aber will man einer Software bisweilen zufällige Verschlingungen von Text mehrerer Zeilen zu entwirren beibringen? Reicht die KI dafür bereits?

Ok, die OCR-Ausgabe bedarf sowieso eines Gegenlesens. Wenn dann aber die Ausgangstexte gar nicht mehr menschlich gelesen werden können, weil die Lesepraxis und das Wissen über die Schrift fehlt, kann auch niemand mehr kontrollieren, ob die erkannte Zeichenfolge tatsächlich korrekt ist – oder ob ein Erkennungsfehler ein echter oder nur ein vermeintlicher ist:
Wurde »Jllustrirte« (Jlluſtrirte 𝔍𝔩𝔩𝔲𝔣𝔱𝔯𝔦𝔯𝔱𝔢) erkannt, muss man schon einschätzen können, ob das nun die Schreibweise der Zeit ist, in der der Text verfasst wurde und so korrekt ist – oder ob versales handschriftliches J 𝓙𝕵 und I 𝓘𝕴 vertauscht erkannt und ein e fallengelassen wurde. – Oder aber auch, ob das OCR-Ergebnis auch noch an modernen Rechtschreibgewohnheiten angepasst werden soll.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: sxhc
Zurück
Oben Unten