Scanner mit PDF mit hinterlegtem Text Funktionalität

palmann

palmann

Aktives Mitglied
Thread Starter
Dabei seit
07.04.2004
Beiträge
1.968
Reaktionspunkte
144
Hallo,

ich habe hier ein PDF, das von einem Buch eingescannt wurde. Trotzdem ist der Text markier- und durchsuchbar. Sowas hätte ich gerne auch. :)

Kennt jemand (möglichst günstige) Scanner, deren Software diese Funktionalität bieten? Möglichst für Mac OS X, notfalls auch für Windows?

Wie nennt sich diese Funktionalität? Texterkennung oder OCR beschreibt ja nicht zwingenderweise die Einbettung von Text in PDFs. Worauf muss ich da bei Kauf achten?

Danke euch!

Gruesse, Pablo
 
Mann kann in Acrobat Pro ab Version 8 (vielleicht auch früher) das PDF OCR lesen und in editierbaren Text verwandeln.
 
  • Gefällt mir
Reaktionen: palmann
Was meinst du denn hiermit?

Mit Einbettung von Text in PDF meine ich, dass das PDF mit Text hinterlegt ist, so dass dieser markierbar wird. Siehe Screenshot. Das Inhaltsverzeichnis im Beispiel wurde eingescannt.

Also Readiris kann das. Weis jemand, ob die Readiris SW, die z.B. HP Scanjet Scanner diese Einbettung auch können oder sind diese in ihrer Funktionalität eingeschränkt?

@avalon: Mir scheint, die Acrobat Lösung wird mir zu teuer, da ich auch noch keinen Scanner habe...

Gruesse, Pablo
 

Anhänge

  • Bild 3.jpg
    Bild 3.jpg
    27,6 KB · Aufrufe: 64
Zuletzt bearbeitet:
Aber das ist doch das, was eine Texterkennung macht, die als Speicherformat (auch) PDF kann. Also Ausgangsformat ein Stück Papier, dass zB als jpeg eingescannt wurde, dann Texterkennung drüber laufen lassen und als PDF abspeichern. Das alles ist keine Frage des Scanners, sondern der Software (wobei natürlich zT Scannern entsprechende Software beigelegt wird).

Gruß

dejes
 
Alle aktuellen Canon All-in-One-Geräte können das, demnach sollten es auch die aktuellen Scanner von Canon können - die anderer Hersteller wahrscheinlich auch.

@dejes
Er meint, dass das PDF (eine Grafik!) den eigentlichen, such- und markierbaren Text enthält.

Gruß, eiq
 
Er meint, dass das PDF (eine Grafik!) den eigentlichen, such- und markierbaren Text enthält.
Irgendwie stehe ich gerade auf dem Schlauch. Wo soll der Text denn sonst sein bei der Vorgehensweise Scannen-Texterkennung-Als PDF abspeichern?

Gruß

dejes
 
  • Gefällt mir
Reaktionen: palmann
Aber das ist doch das, was eine Texterkennung macht, die als Speicherformat (auch) PDF kann.

@dejes: Das wollte ich ja nur wissen, das man davon ausgehen kann.
Irgendwie stehe ich gerade auf dem Schlauch. Wo soll der Text denn sonst sein bei der Vorgehensweise Scannen-Texterkennung-Als PDF abspeichern?

Es bestünde ja auch die Möglichkeit, dass nur die Bitmaps in die PDFs eingebettet werden und einem das als PDF-Export verkauft würde und das einem die Texterkennungsfunktion nur für den Export in *.rtf oder *.doc Formate zur Verfügung stehen. Also der gescannte Text (der ja eigentlich zunächst nur ein Bild ist) nicht als Text im PDF eingebettet ist, sondern nur als Bitmap. Davon würde ich aus technischer Sicht erstmal ausgehen.

Das ist aus den Produktbeschreibungen der Anbieter nicht direkt ersichtlich, vor allem wenn man keine Ahnung davon hat. Wie gesagt, ich habe keinen Scanner, deshalb muss ich fragen. :) Und ich möchte mir einen kaufen, der das kann. Und zwar in zufriedenstellender Qualität.

Gruesse, Pablo
 
Irgendwie stehe ich gerade auf dem Schlauch. Wo soll der Text denn sonst sein bei der Vorgehensweise Scannen-Texterkennung-Als PDF abspeichern?
Früher war es üblich, dass der Text einfach als normaler Fließtext erkannt wurde, und nicht als Bild in ein PDF eingebettet wurde und dann quasi mit dem erkannten Text (zum suchen, etc.) "hinterlegt" wurde.

Gruß, eiq
 
  • Gefällt mir
Reaktionen: palmann
Früher war es üblich, dass der Text einfach als normaler Fließtext erkannt wurde, und nicht als Bild in ein PDF eingebettet wurde und dann quasi mit dem erkannten Text (zum suchen, etc.) "hinterlegt" wurde.

Gruß, eiq

Genau. So hatte ich das auch in Erinnerung. :)

EDIT: Nennt sich der Spass zufällig Scan-to-PDF?

Gruesse, Pablo
 
Zuletzt bearbeitet:
Also ich weiß nicht, ob das jetzt alles so richtig angekommen ist. Prinzipiell ist das eine Frage der Software. Fachmännisch nennt man das texthinterlegtes PDF. Also ein PDF mit einem Bitmap, in dem versteckt der via OCR erkannte Text an der richtigen Position liegt (man kann auf dem grafischen, gescannten Text echtes Copy & Paste machen).

Das o.g. IRIS kann das. Meines Wissens nach ist die Mac-Version nicht so der Hit. Ich würde das ganze mit einer aktuellen Windows-Version machen. Bei IRIS ist gerade die Version 12 rausgekommen. Die sieht ganz viel versprechend aus. Auf der Website gibt es ja die Möglichkeit, eine Trial runter zu laden.

Außerdem gibt es noch (alles Windows) den ABBYY FineReader. Und bei jeder Windows Office-Installation ist ein Scan-Programm dabei, dass auch das OCR-Feature hat, allerdings leider kein PDF, sondern nur ein TIFF erzeugt.
 
  • Gefällt mir
Reaktionen: palmann
Nee, das ist schon angekommen, aber danke für die zusammenfassenden Worte. Die Herstellerangaben welche Software bei welchem Scanner beiliegt ist teilweise recht verworren, manchmal steht das was von I.R.I.S. oder von Readiris oder nur OCR oder Scan-to-PDF. Alles etwas wirr.

Ich hatte mir sogar schonmal tesseract kompiliert (ja für Mac OS X), hat auch ganz gut funktioniert. War allerdings dann doch etwas unhandlich, vor allem wegen der Artefakte die durch Nicht-Text-Elemente entstanden.

Aber letzten Endes finde ich dieses mit Text hinterlegte PDF für meine Zwecke doch am sinnvollsten.

Wie gesagt, ich brauch eh einen Scanner und da möcht ich halt am be$ten gleich ein brauchbares OCR-Programm dazu. Wenn nur für Windows erhältlich auch egal, Atlas/ti läuft auch nur auf Windows, VirtualBox mit XP ist eingerichtet.

EDIT: Wo wir schon bei Windows angekommen sind, was ist von OmniPage zu halten? MS Office für Windows kommt nicht in Frage...

Sorry für OT.

Gruesse, Pablo
 
Zuletzt bearbeitet:
Zurück
Oben Unten