Text aus lässt sich nicht aus PDF kopieren

fox78

fox78

Aktives Mitglied
Thread Starter
Dabei seit
02.02.2004
Beiträge
2.784
Reaktionspunkte
366
Hallo,
ich bin etwas ratlos. Ich möchte einen öffentlich zugänglichen Gesetzesentwurf (PDF) mit dem bestehenden Gesetz vergleichen und dazu beide Texte in einer Tabelle gegenüberstellen.
Das PDF ist ungeschützt, jedoch führt ein Copy-and-paste nur zu kauderwelsch. Alle Textzeichen sind anders kodiert. Das sieht man im PDF auch, wenn man in Acrobat Pro im Werkzeug Text-Bearbeiten unter Format eine Standardschrift für eine Textauswahl wählt. Ich wage zu behaupten, dass das mit Absicht so präpariert wurde, auch wenn sich mir der Sinn nicht erschließt.

Nun habe ich folgende Fragen:
1) Wer hat eine elegante Lösung dafür? (Die brutale Methode wäre, alles in Bilder wandeln und OCR drüber laufen zu lassen)
2) Wie wurde das erzeugt (falls man mal selber fies sein möchte) ;)

Grüße fox78
 
Ich habe mir gerade den Link angeschaut.
Der letzte Link liefert ein defektes PDF,
der 3. liefert ein PDF, aus dem sich Text problemlos entnehmen läßt.
PDF.jpg
 
  • Gefällt mir
Reaktionen: fox78
Oha, danke. Ich nahm an, dass beide PDF identisch sind. Ich habe mich also nur für den "falschen" Link entschieden. Was hat der Bundesrat dann aber angestellt, um das PDF so zu verhunzen? Ich dachte schon, das soll ein subtiler Kopierschutz sein...
 
Ich bin nur Studien-, aber nicht Bundesrat ;)
 
Mist, zu früh gefreut, ab Seite 7 funktioniert es auch in dem anderen PDF nicht. Anscheinend wurde der Vorspann auf den ersten Seiten separat/anders erzeugt.
 
Ab S. 147 ist es wieder in Ordnung. Die Textsuche von Adobe Acrobat Professional findet auf den Seiten 1-6 und ab S.147 z.B. das Wort „mit“, auf den anderen Seiten aber nicht.
Auch der Versuch, durch Adobe ab S. 7 "Text erkennen" zu lassen, schlägt fehl.
Was halbwegs funktioniert, ist der Export in ein Word-Dokument (mit 161 Seiten). Schreibe mir eine PM, falls du das Word-Dokument haben möchtest.
 
Danke für das Angebot, aber ich habe den Text inzwischen über OCR gejagt und extrahiert.

Mich würde dennoch die Ursache des ganzen interessieren.
 
Hi,
das wäre Interessant, es wird halt sehr viel gemurkst.
 
ich habe es auch gerade probiert und sogar mit dem Automator extrahieren lassen.
Wie bei Euch ist es erst super und in der Mitte nur Müll.
Ich würde die eiskalt anschreiben und auf die kaputte PDF ansprechen.
Ok ... zum angucken geht sie ja ..... ;)

ps: es scheint ein Word Dokument zu sein welches als PDF exportiert wurde.
 
Die haben möglicherweise eine Schrift mit nicht-Standard-Encoding benutzt. In dem Programm, mit dem das PDF erzeugt wurde, muss das gar nicht auffallen. Mindestens abseits von Normen wie PDF-X oder PDF-A ist es nicht mal ein Defekt.
 
aber ein cooler Kopierschutz :D
 
Zurück
Oben Unten