Durchsuchbares PDF erstellen, grundlegende Funktionsweise und Tipps

S

Sharptype

Aktives Mitglied
Thread Starter
Dabei seit
23.05.2015
Beiträge
1.181
Reaktionspunkte
112
Moin zusammen,

nicht lachen, aber bin gerade etwas lost bei einem Thema :rolleyes:. Ich scanne mit meinem Scansnap S1300i Dokumente ein, die ich dann als PDF speichere. Als durchsuchbare PDFs habe ich diese nie gespeichert (glaube die Fujitsu Software kann das aber), da ich dachte, dass dann die PDFs selbst durch die OCR neu gestaltet/verändert werden und die hinterher nur so gut dargestellt werden, wie die OCR Software halt übersetzen kann. Das ist völliger Quatsch oder? :D

Ich habe dann durch Zufall (hatte mich länger mit dem Thema nicht beschäftigt und alles nur normal als nicht durchsuchbares PDF gescannt) mitbekommen, dass es lediglich beim Konvertieren in ein durchsuchbares PDF eine separate Textebene im PDF-Dokument gibt, die aber eben nur zusätzlich enthalten ist, aber es wird nie das eigentlich Dokument geändert? Stimmt das?

Also selbst wenn die OCR schlecht ist, hätte man wenigstens noch die Möglichkeit was schlechtes zu durchsuchen und somit die Chance auf paar wenige inhaltliche Treffer, als gar keine, weil es nicht durchsuchbar ist?
 
Meines Wissens nach bräuchtest du aus einem Layoutprogramm erstellte PDFs dafür.
Für einen Kunden erstelle ich bsw. von solchen PDFs animierte "durchblätterbare" Online-Versionen inkl. Download und Suchfunktionen etc.
Die liefern mir solche PDFs.
 
In Acrobat Pro umwandeln. Klappt hervorragend.
 
Du kannst mit der Fujitsu Software auch nachträglich pdf in pdf durchsuchbare Dateien erstellen. Auf Wunsch schick ich dir den Tipp.
 
Danke für eure Antworten. Mir geht es nicht um das "wie" sondern erstmal um die technische Funktionsweise. Ich will auf keinen Fall originale Dokumente durch schlechte Software irgendwie verändern im Inhalt!

Ich dachte/denke bzw. war in der Annahme, dass bei einer Konvertierung in ein durchsuchbares PDF halt das Design/Aussehen des Original-PDFs geändert wird, weil die Erkennung alles übersetzt und dann das PDF falsch abgespeichert werden könnte, weil OCR eben nicht fehlerfrei ist?
 
Das PDF sieht nach OCR genau gleich aus wie davor. Mehr gibts dazu nicht zu sagen.
 
Mir geht es nicht um das "wie" sondern erstmal um die technische Funktionsweise.
Im Prinzip wird das gescannte Original-Bild mit einem durchsuchbaren Text kombiniert, den die OCR-Software erzeugt hat. Du siehst dabei am Bildschirm das Original, aber die Suchfunktion oder cmd-C sieht den OCR-Output.

Ich dachte/denke bzw. war in der Annahme, dass bei einer Konvertierung in ein durchsuchbares PDF halt das Design/Aussehen des Original-PDFs geändert wird, weil die Erkennung alles übersetzt und dann das PDF falsch abgespeichert werden könnte, weil OCR eben nicht fehlerfrei ist?
Es gab/gibt auch Software, die tatsächlich so arbeite(te). D.h. der vom OCR-Programm erkannte Text wurde in einer möglichst ähnlichen Schrift neu gesetzt – einschließlich aller Erkennungsfehler. K.A., wie verbreitet das war oder noch ist.
 
Das PDF sieht nach OCR genau gleich aus wie davor. Mehr gibts dazu nicht zu sagen.

Da wäre ich mir nicht so sicher. Ein gescanntes PDF ist ja letztlich ein Bild (TIF/JPG/...) in einem PDF "Umschlag". Wenn das OCR Programm beim speichern des PDFs nach dem OCR Vorgang dieses Bild in der Auflösung verändert, kann sich das Bild im Ergebnis schon ändern. Ich hatte vor Jahren mal viele Programme für OCR ausprobiert und tatsächlich auch Verschlechterungen festgestellt. Auch in der Dateigröße gab es durch verschiedene Kompressionsverfahren Unterschiede. Teils wurden die Dokumente erheblich größer. Ich weiß aber nicht mehr, welche Programme das waren. Hängen geblieben bin ich dann beim OCRKit.

Allerdings halte ich nicht viel von schlechten OCR Ergebnissen. Der Grund: wenn ich etwas suche und finde - gut. Aber wenn ich einen Begriff nicht finde, heißt das ja lange nicht, dass er nicht vorkommt. Könnte ja schlecht "OCRd" sein. Dann muss ich doch wieder manuell suchen.

Edit: Sehe Schreibfehler grundsätzlich nach dem Senden. :-(
 
Es gab/gibt auch Software, die tatsächlich so arbeite(te). D.h. der vom OCR-Programm erkannte Text wurde in einer möglichst ähnlichen Schrift neu gesetzt – einschließlich aller Erkennungsfehler. K.A., wie verbreitet das war oder noch ist.
So dachte ich es ja, und das war der Grund warum ich das nie konvertiert hatte. Kann sich ja kein Mensch drauf verlassen. Plötzlich sind so alle wichtigen Unterlagen einfach um-/falschgeschrieben in Abhängigkeit wieviel Geld ich für die OCR Technologie ausgegeben habe:rotfl:

Im Prinzip wird das gescannte Original-Bild mit einem durchsuchbaren Text kombiniert, den die OCR-Software erzeugt hat. Du siehst dabei am Bildschirm das Original, aber die Suchfunktion oder cmd-C sieht den OCR-Output.
Und das widerrum ist total genial, so habe ich es mir gewünscht. Macht ja auch deutlich mehr Sinn, alles andere wäre doch total fahrlässig :Oldno:
 
Allerdings halte ich nicht viel von schlechten OCR Ergebnissen. Der Grund: wenn ich etwas suche und finde - gut. Aber wenn ich einen Begriff nicht finde, heißt das ja lange nicht, dass er nicht vorkommt. Könnte ja schlecht "OCRd" sein. Dann muss ich doch wieder manuell suchen.
Ja, aber das ist ja genau das Gute, wenn er das nur zusätzlich in einer Textebene speichert und alles andere so lässt. Dann hat man eben - korrigiert mich - eine zusätzliche Chance mehr zu finden, die man sonst eben gar nicht hat, weil du nichts durchsuchen kannst!

Ob er das Bild in der Größe oder so ändert ist ja egal, solange es vom Inhalt her nicht geändert wird und das Dokument in dem Sinne original bleibt.
 
Probier doch einfach mal mit Kopien verschiedener PDFs aus, was dabei herauskommt. Vom OCRKit gibts auch eine 14 Tage Demo. Von anderen Programmen vielleicht auch. Und der Scansnap bringt ja auch was mit.
 
Danke für eure Antworten. Mir geht es nicht um das "wie" sondern erstmal um die technische Funktionsweise. Ich will auf keinen Fall originale Dokumente durch schlechte Software irgendwie verändern im Inhalt!

Ich dachte/denke bzw. war in der Annahme, dass bei einer Konvertierung in ein durchsuchbares PDF halt das Design/Aussehen des Original-PDFs geändert wird, weil die Erkennung alles übersetzt und dann das PDF falsch abgespeichert werden könnte, weil OCR eben nicht fehlerfrei ist?

Was da technisch passiert, kann ich nicht sagen. Aber ich scanne mit einem ScanSnap 500 und der beigefügten Software. Nach dem Scannen fragt er mich immer, was er denn mit dem Dokument machen soll. Dazu sind einige Apps mitgeliefert worden. Eine heißt „Konvertierer für durchsuchbare PDF” Version 6.4.30.1001 Copyright PFU Limited. Hier stelle ich die Sprache ein und dass er konvertieren soll, wenn Systemressourcen frei sind. Das Ergebnis: Absolut identische „Scans” die mit Spotlight leicht und schnell durchsuchbar sind. Die Dateien sind dann immer recht groß. Z. B. 70 Seiten 23 MB. Sie haben ein .pdf - Suffix.
 
Ja das klingt gut, ich habe mit der Scansnap Software auch die Möglichkeit. Werde das mal probieren. Hab halt - wie gesagt - nur gedacht, dass er die PDFs irgendwie manipuliert und ich mich auf irgendeine OCR Übersetzung in den gescannten PDFs freuen kann. Aber wenn er eine zusätzliche Textebene erzeugt dann ist es nicht wichtig, ob der Text zu 100% immer richtig erkannt wird, weil das Original ja immer als "overlay" angezeigt wird und darum geht es mir.
 
Zurück
Oben Unten