PDFs in Text konvertieren / OCR Software. Tipps gesucht

Wenn du eine PDF aus einer Textverarbeitung wie Word erzeugst, oder über andere Tools aus einem derartigem Textdokument, sollte das PDF eigentlich immer durchsuchbar sein, da der Text im PDF wirklich auch Text ist.

Anders ist es, wenn du Dokumente über einen Scanner einscannst und daraus ein PDF erhälst. Dann ist das Ergebnis ein PDF, dessen einzelnen Seiten jeweils ein Bild des gescannten Dokuments sind. Um sie durchsuchbar zu machen, musst sie durch eine Texterkennung (OCR) laufen lassen. Idealerweise erhälst du dann als Ergebnis ein PDF, was wie das ursprüngliche PDF ausschaut, welches aber zusätzlich einen unsichtbaren Text-Layer über den Bildern hat, die den erkannten Text enthält. Dieser Text ist dann durchsuchbar. Die OCR-SW sollte die Skalierung des Textes so gewählt haben, daß die Wörter immer deckungsgleich mit den entsprechenden Wörtern der Bildebene sind. So kannst du dann ganz gezielt auch Text markieren und es schaut dabei so aus, als würdest du den Text der Bildebene auswählen können.

Ich hoffe es ist einigermaßen verständlich. :)

:D
Klasse Erklärung! DANKE
 
Zurück
Oben Unten