Aber wenigstens die Bürokraten damals müssen das wohl irgendwie gelesen haben,
Ich schrieb ja: ein Mittel des Herrschaftswissens. Eine auf die distinktiven Merkmale der einzelnen Buchstaben reduzierte Schrift kann jeder (pathologische Gründe mal ausgenommen) schnell erlernen, schreiben und lesen. Kanzleischriften können nicht auf schnelles Erlernen hin entwickelt worden sein.
Was Vertragstexte in Kanzleischriften damals, sind AGB-Bleiwüsten, in US-amerikanischen Texten bisweilen um Versaliensteppen angereichert, heute. Die Uneingeweihten sollen sie nicht lesen.
Transkribieren ist schlicht Übungssache. Meist kann man den ersten Tag nur einzelne Wörter, am zweiten Sätze und am dritten Absätze lesen. Dann hat man sich an die "Hand" gewöhnt und liest das, wie gedrucktes Arial.
Ja klar. Menschen. Die – mit Aufwand – das Wichtige und Distinktive im Schriftbild von den Verzierungen zu scheiden lernen. Wie aber will man einer Software bisweilen zufällige Verschlingungen von Text mehrerer Zeilen zu entwirren beibringen? Reicht die KI dafür bereits?
Ok, die OCR-Ausgabe bedarf sowieso eines Gegenlesens. Wenn dann aber die Ausgangstexte gar nicht mehr menschlich gelesen werden können, weil die Lesepraxis und das Wissen über die Schrift fehlt, kann auch niemand mehr kontrollieren, ob die erkannte Zeichenfolge tatsächlich korrekt ist – oder ob ein Erkennungsfehler ein echter oder nur ein vermeintlicher ist:
Wurde
»Jllustrirte« (Jlluſtrirte 𝔍𝔩𝔩𝔲𝔣𝔱𝔯𝔦𝔯𝔱𝔢) erkannt, muss man schon einschätzen können, ob das nun die Schreibweise der Zeit ist, in der der Text verfasst wurde und so korrekt ist – oder ob versales handschriftliches
J 𝓙𝕵 und
I 𝓘𝕴 vertauscht erkannt und ein
e fallengelassen wurde. – Oder aber auch, ob das OCR-Ergebnis auch noch an modernen Rechtschreibgewohnheiten angepasst werden soll.