Hat hier mal jemand ein paar Zahlen zu den Erkennungsraten der vorgeschlagenen Tools. Wann immer ich es mit OCR in Verbindung mit Briefverkehr versucht hatte, scheiterte es letztlich an der grundsätzlich zu schlechten Erkennungsrate (99,9% lässt immer noch viel zu viele Fehler durch) in Verbindung mit der Unfähigkeit der OSX-PDF-Reader fuzzy zu suchen. Sprich eine 0 als O, I als 1 und derlei typische Fehlerkennungen zu probieren. Wo man eigentlich denken sollte, daß genau diese Fehler schon von der OCR abgefangen werden sollten, wenn sie tatsächlich, wie immer behaupten, Wörterbücher benutzen. Mir sind jedenfalls Wörter wie 0ma nicht bekannt.
Und was die PDF-Reader angeht, muß ich sagen, daß ich von denen auf OSX einigermaßen entäuscht bin. Mal abgesehen davon, daß es scheinbar keinen gibt, der "0ma" findet, wenn ich "Oma" suche, nervt mich fast noch mehr, daß es außer dem Acrobat Reader (den ich überhaupt nicht leiden kann) keinen anderen gibt, der umgebrochene Wörter findet. Und das ist in deutschsprachigen Texten nicht gerade selten.
Witzigerweise gibt es für Android gleich mehrere PDF-Reader, die beides können.