Was erwartest du jetzt genau von OCR (Optical Character Recognition)?
Mal schrittweise:
1. Du hast eine gedruckte Vorlage, aus der du Text extrahieren willst, um diesen anderweitig – als Text – weiterverwenden zu können.
2. Der Scan-Software-Teil der OCR-Software tastet die Vorlage ab.
3. Der Erkennungs-Teil der OCR-Software versucht im Scan Bereiche zu identifizieren (oder in einem von dir aufgezogenen Bereich des Scans), in denen der Software nach Text zu finden sei.
4. Diese Bereiche werden dir angezeigt. — An vrsl. diesem Punkt befinden sich alle deine Bildschirmfotos.
5. Der Lese-Teil der OCR-Software wird jetzt von dir angewiesen, in den Text zu enthalten erkannten Bereichen den Text zu lesen und diesen in eine (neue/andere) Datei zu überführen, in der sich dann der gelesen geglaubte Text befindet.
6. Dieser Text in dieser (neuen/anderen) Datei lässt sich nun bearbeiten, korrekturlesen, softwareunterstützt korrekturlesen lassen. (Anhand deiner Korrekturen versucht der Scan-Lese-Teil der OCR-Software evtl., ihre Lese-Erkennung zu verbessern zu lernen.)
7. Der Inhalt jener letzten Datei, allfällig korrekturgelesen, verwendest du da weiter, wo du sie in anderen Dokumenttexten brauchst.
Kein, zumindest kein primärer Gegenstand einer OCR ist es, dir gleich ein komplett editierbares Layout aller gescannter Blattseiten samt etwaiger Bilder und Grafiken zu liefern.