Scanner zum Scannen von Büchern, OCR-Software usw.

micki-mac

Aktives Mitglied
Thread Starter
Dabei seit
28.06.2006
Beiträge
907
Reaktionspunkte
49
Ich habe beschlossen, meine gedruckten Bücher, die es nicht digital gibt, zu scannen und dann die Texterkennung (OCR) drüber laufen zu lassen.

Die örtliche Druckerei schneidet mir die Buchrücken ab, so dass ich also die losen Seiten scannen kann.

Ein erster Versuch mit einem Buch, das ich mit einem Fujitsu ScanSnap iX100 ins PDF-Format gescannt habe, war nicht gerade ermutigend. Fürs menschliche Auge war der Scan völlig okay, aber die OCR-Software (Abbyy FineReader, mitgeliefert von Fujitsu, bzw. die Version, die mit DEVONthink geliefert wird), hat indiskutabel viele Fehler bei der Texterkennung.

Danach habe ich einige Seiten mit Adobe Acrobat (Testversion für 7 Tage) einlesen lassen, aber das Ergebnis war nicht wesentlich besser, die Nachbearbeitung eines Buchs von etwa 500 Seiten würde mich nicht Stunden, sondern Tage kosten.

Vielleicht habe ich die Einstellungen des Scanners noch nicht optimal gehabt.

Meine Frage ist nun, ob jemand schon Erfahrung mit so einer Aufgabe hat und was empfehlenswert ist in Bezug auf Scanner und OCR-Software.

PS.: Ich habe vorhin mal bei amazon geguckt, und da wurde ein Scanner (vermutlich inkl. Software) in einer Rezension dafür gelobt, dass er eine Trefferquote von 95% hätte. Das würde bedeuten, dass von 100 Zeichen 5 falsch erkannt sind. Wie lange soll man dann an der Korrektur eines Buches sitzen? Da ist ja Abtippen fast schneller.
 
Um manuelles Nachbearbeiten wirst Du nicht herumkommen. Wenn Du zuverlässige Ergebnisse erwartest.
Und nein, Abtippen ist nicht schneller ;-).
 
Also alles was ich mit meinem Brother MFC scanne und mit PDF Expert OCR hat kein Fehler.

Welchee Auflösung/Einstellung hast Du beim Snapscan gewählt?
 
Die Erkennung selbst ist eher eine Frage der Software. Durch das Schneiden entfällt ja auch von vornherein die Verzerrung, die die verlinkten Geräte erst raus rechnen müssen.

Auf der anderen Seite beeinträchtigen 5 % Fehlerquote die Lesbarkeit eines Romans wohl nicht wesentlich. ;)
 
Also zum einen finde ich es ja frevelhaft, dass man gute Bücher kaputt macht. Aber das nur am Rande.
Meine Empfehlung wäre, dass Du einen anderen Scanner nutzt. Es gibt für solche Sachen Geräte, die dann auch eine wesentlich höhere „Trefferquote“ haben.
Hier mal zwei Beispiele:
https://www.amazon.de/dp/B0B8MM3SFF...=computers&sp_csd=d2lkZ2V0TmFtZT1zcF9kZXRhaWw
und
https://www.amazon.de/dp/B0B8MM3SFF...=computers&sp_csd=d2lkZ2V0TmFtZT1zcF9kZXRhaWw
Der Scanner hat keine "Trefferquote", sondern die OCR Software.
und Bücher Seite bei Seite scannen ... viel Spass.
 
Mit dem Scanner: epson ds 730n und DEVONthink3 zur Texterkennung sehr gute Ergebnisse! Habe hunderte Hefte und Bücher digitalisiert. Ein Fehler ist häufiger aufgetreten: ein ü wir als ii erkannt. Ansonsten keine Probleme - eigentlich sogar perfekt.
 
  • Gefällt mir
Reaktionen: picknicker1971
Wenn der Scanner schlecht ist (also schon der Scan selber), dann sinkt auch die Trefferquote. Wer das nicht glaubt, kann es gerne selber versuchen, indem er ein Dokument in unterschiedlicher Qualität scannt.
 
Die Erkennung selbst ist eher eine Frage der Software. Durch das Schneiden entfällt ja auch von vornherein die Verzerrung, die die verlinkten Geräte erst raus rechnen müssen.

Auf der anderen Seite beeinträchtigen 5 % Fehlerquote die Lesbarkeit eines Romans wohl nicht wesentlich. ;)
Von "Romanen" habe ich nichts gesagt. Für Romane bräuchte ich keine OCR.
 
Aha, konnte man ja nicht wissen. ;)

Ich würde auch für Romane OCR nehmen, weil 500 Seiten als Folge con 300 dpi Bildern wäre mir zu viel Holz... :ROFLMAO:
 
Wenn der Scanner schlecht ist (also schon der Scan selber), dann sinkt auch die Trefferquote. Wer das nicht glaubt, kann es gerne selber versuchen, indem er ein Dokument in unterschiedlicher Qualität scannt.
Absolut.
Die von Dir verlinkten Scanner haben 320dpi
Der vom TS eingesetzte ScanSnap kann 600dpi

1705759254137.jpeg
 
Mach doch einfach ein Hörbuch draus ist vielleicht einfacher...? :ROFLMAO:
 
  • Haha
  • Gefällt mir
Reaktionen: razormax, picknicker1971 und MacKaz
Ich würde das ganze an einen Betrieb mit Hochleistungsscanner geben, der Dir die Bücher im Stapel verarbeitet und gleich richtig seitenweise abspeichert.

Soe wie hier z.B.: https://www.repro-online.de/buecher-digitalisieren
Im Prinzip ja ne gute Sache - mich würde aber mal interessieren, was da ein Buchscan zB eines 100 Seiten normalen Buches kostet.
Ich denke mir: was müsste mir ein Buch wert sein, damit ich es scannen lasse (oder die Arbeit reinstecke für einen Eigenscan).
Alternativ könnte man es ja, wenn verfügbar, auch einfach ein zweites mal als eBook kaufen.
 
Wenn Ich Dokumente scanne für ocr mit einem HP Officejet habe ich mit 200 dpi und schwarz weiss die besten Ergebnisse erzielt.

Optisch sahen die Scans mit anderen Einstellungen besser aus, aber darum ging es ja nicht.

Ich denke aber auch, es hängt von den Vorlagen ab, was denn nun am besten jeweils ist
 
  • Gefällt mir
Reaktionen: picknicker1971
Zurück
Oben Unten