Text aus lässt sich nicht aus PDF kopieren

fox78 · 07.06.2018

Hallo,
ich bin etwas ratlos. Ich möchte einen öffentlich zugänglichen Gesetzesentwurf (PDF) mit dem bestehenden Gesetz vergleichen und dazu beide Texte in einer Tabelle gegenüberstellen.
Das PDF ist ungeschützt, jedoch führt ein Copy-and-paste nur zu kauderwelsch. Alle Textzeichen sind anders kodiert. Das sieht man im PDF auch, wenn man in Acrobat Pro im Werkzeug Text-Bearbeiten unter Format eine Standardschrift für eine Textauswahl wählt. Ich wage zu behaupten, dass das mit Absicht so präpariert wurde, auch wenn sich mir der Sinn nicht erschließt.

Nun habe ich folgende Fragen:
1) Wer hat eine elegante Lösung dafür? (Die brutale Methode wäre, alles in Bilder wandeln und OCR drüber laufen zu lassen)
2) Wie wurde das erzeugt (falls man mal selber fies sein möchte)

Grüße fox78

SchuBi · 07.06.2018

Ich habe mir gerade den Link angeschaut.
Der letzte Link liefert ein defektes PDF,
der 3. liefert ein PDF, aus dem sich Text problemlos entnehmen läßt.

fox78 · 07.06.2018

Oha, danke. Ich nahm an, dass beide PDF identisch sind. Ich habe mich also nur für den "falschen" Link entschieden. Was hat der Bundesrat dann aber angestellt, um das PDF so zu verhunzen? Ich dachte schon, das soll ein subtiler Kopierschutz sein...

SchuBi · 07.06.2018

Ich bin nur Studien-, aber nicht Bundesrat

fox78 · 07.06.2018

Mist, zu früh gefreut, ab Seite 7 funktioniert es auch in dem anderen PDF nicht. Anscheinend wurde der Vorspann auf den ersten Seiten separat/anders erzeugt.

SchuBi · 07.06.2018

Ab S. 147 ist es wieder in Ordnung. Die Textsuche von Adobe Acrobat Professional findet auf den Seiten 1-6 und ab S.147 z.B. das Wort „mit“, auf den anderen Seiten aber nicht.
Auch der Versuch, durch Adobe ab S. 7 "Text erkennen" zu lassen, schlägt fehl.
Was halbwegs funktioniert, ist der Export in ein Word-Dokument (mit 161 Seiten). Schreibe mir eine PM, falls du das Word-Dokument haben möchtest.

fox78 · 07.06.2018

Danke für das Angebot, aber ich habe den Text inzwischen über OCR gejagt und extrahiert.

Mich würde dennoch die Ursache des ganzen interessieren.

dg2rbf · 07.06.2018

Hi,
das wäre Interessant, es wird halt sehr viel gemurkst.

Schnatterente · 07.06.2018

ich habe es auch gerade probiert und sogar mit dem Automator extrahieren lassen.
Wie bei Euch ist es erst super und in der Mitte nur Müll.
Ich würde die eiskalt anschreiben und auf die kaputte PDF ansprechen.
Ok ... zum angucken geht sie ja .....

ps: es scheint ein Word Dokument zu sein welches als PDF exportiert wurde.

daimon · 07.06.2018

Die haben möglicherweise eine Schrift mit nicht-Standard-Encoding benutzt. In dem Programm, mit dem das PDF erzeugt wurde, muss das gar nicht auffallen. Mindestens abseits von Normen wie PDF-X oder PDF-A ist es nicht mal ein Defekt.

Schnatterente · 07.06.2018

aber ein cooler Kopierschutz

Text aus lässt sich nicht aus PDF kopieren

fox78

Aktives Mitglied

SchuBi

Aktives Mitglied

fox78

Aktives Mitglied

SchuBi

Aktives Mitglied

fox78

Aktives Mitglied

SchuBi

Aktives Mitglied

fox78

Aktives Mitglied

dg2rbf

Aktives Mitglied

Schnatterente

Aktives Mitglied

daimon

Aktives Mitglied

Schnatterente

Aktives Mitglied