micki-mac
Aktives Mitglied
Thread Starter
- Dabei seit
- 28.06.2006
- Beiträge
- 907
- Reaktionspunkte
- 49
Ich habe beschlossen, meine gedruckten Bücher, die es nicht digital gibt, zu scannen und dann die Texterkennung (OCR) drüber laufen zu lassen.
Die örtliche Druckerei schneidet mir die Buchrücken ab, so dass ich also die losen Seiten scannen kann.
Ein erster Versuch mit einem Buch, das ich mit einem Fujitsu ScanSnap iX100 ins PDF-Format gescannt habe, war nicht gerade ermutigend. Fürs menschliche Auge war der Scan völlig okay, aber die OCR-Software (Abbyy FineReader, mitgeliefert von Fujitsu, bzw. die Version, die mit DEVONthink geliefert wird), hat indiskutabel viele Fehler bei der Texterkennung.
Danach habe ich einige Seiten mit Adobe Acrobat (Testversion für 7 Tage) einlesen lassen, aber das Ergebnis war nicht wesentlich besser, die Nachbearbeitung eines Buchs von etwa 500 Seiten würde mich nicht Stunden, sondern Tage kosten.
Vielleicht habe ich die Einstellungen des Scanners noch nicht optimal gehabt.
Meine Frage ist nun, ob jemand schon Erfahrung mit so einer Aufgabe hat und was empfehlenswert ist in Bezug auf Scanner und OCR-Software.
PS.: Ich habe vorhin mal bei amazon geguckt, und da wurde ein Scanner (vermutlich inkl. Software) in einer Rezension dafür gelobt, dass er eine Trefferquote von 95% hätte. Das würde bedeuten, dass von 100 Zeichen 5 falsch erkannt sind. Wie lange soll man dann an der Korrektur eines Buches sitzen? Da ist ja Abtippen fast schneller.
Die örtliche Druckerei schneidet mir die Buchrücken ab, so dass ich also die losen Seiten scannen kann.
Ein erster Versuch mit einem Buch, das ich mit einem Fujitsu ScanSnap iX100 ins PDF-Format gescannt habe, war nicht gerade ermutigend. Fürs menschliche Auge war der Scan völlig okay, aber die OCR-Software (Abbyy FineReader, mitgeliefert von Fujitsu, bzw. die Version, die mit DEVONthink geliefert wird), hat indiskutabel viele Fehler bei der Texterkennung.
Danach habe ich einige Seiten mit Adobe Acrobat (Testversion für 7 Tage) einlesen lassen, aber das Ergebnis war nicht wesentlich besser, die Nachbearbeitung eines Buchs von etwa 500 Seiten würde mich nicht Stunden, sondern Tage kosten.
Vielleicht habe ich die Einstellungen des Scanners noch nicht optimal gehabt.
Meine Frage ist nun, ob jemand schon Erfahrung mit so einer Aufgabe hat und was empfehlenswert ist in Bezug auf Scanner und OCR-Software.
PS.: Ich habe vorhin mal bei amazon geguckt, und da wurde ein Scanner (vermutlich inkl. Software) in einer Rezension dafür gelobt, dass er eine Trefferquote von 95% hätte. Das würde bedeuten, dass von 100 Zeichen 5 falsch erkannt sind. Wie lange soll man dann an der Korrektur eines Buches sitzen? Da ist ja Abtippen fast schneller.