Tabelle aus PDF extrahieren

Z

zuschauer

Neues Mitglied
Thread Starter
Dabei seit
26.12.2008
Beiträge
6
Reaktionspunkte
0
Hey,

ich habe eine PDF (OCR-gescannt) mit jeweils zwei Wortspalten.
Mit welchem Programm und wie kann ich das als Tabelle für numbers oder OO-Calc extrahieren? Oder wie kann ich darauf eine Tabelle in den genannten Programmen erstellen.
Bildschirmfoto 2014-11-22 um 12.03.35.jpg

Copy&Paste wird zu einem unstrukturierten Ergebnis.

Ich habe zig Seiten mit Vokabeln, die ich mir zur Datenbank erstellen möchte.

Danke.
 
gar nicht, das ist ja keine Tabelle sondern "Text only" der an bestimmten Stellen steht. Da kannst du nicht mehr machen als das per Hand rauskopieren.
 
Mit "Text only" hast Du recht, aber ich kann mir trotzdem vorstellen, dass es workarounds gibt, die das regeln können.

Kann ich einfach Linien in die PDF machen kann? Dann würde ich das nochmal ocr-scannen und dann wäre es ja eine Tabelle. Oder habe ich da einen Denkfehler? Wenn das so funktionieren könnte, mit welcher app kann ich das am einfachsten machen?

Alles einzeln c&p ist bei insgesamt >5000 Vokabeln etwas zu aufwendig.
 
wer wird denn so schnell die Flinte ins Korn schmeissen?

Versuche doch einmal die pdf-Datei mit der Vorschau zu öffnen. Dann dort alles markieren und in TextEdit einfügen. Wenn das geht ist es auf jeden Fall schon mal ein Text, der veränderbar ist. Daraus ein CSV zu erstellen müsste dann auch funktionieren
 
hallo zuschauer, wenn schon kein Danke dann doch bitte zumindest mal melden ob's funktioniert.
 
Hey daytona, danke für deinen Tipp.

Aber seien wir doch bitte nicht so ungeduldig.

Das OCR-Prgramm, OCRkit (eigentlich ganz gut), scheint mit der Struktur überfordert zu sein: Wenn ich c&p dann, sieht es bei Textedit folgendermaßen aus: Zuerst die linke, dann die recht Spalte, aber auch querbeet und Umbrüche werden oft nicht richtig erkannt. Also führt das nicht zur Lösung.

Meine Idee: Den Originalscan (also noch nicht OCR) nehmen, dort Linien ziehen und dann vielleicht nochmal ocr-scannen, in der Hoffnung, dass es dann eine Tabelle ist.
Leider weiß ich noch nicht, wie ich nachträglich Linien in die PDF einfügen kann. Jmd. eine Idee?
 
was meint denn 'Vorschau.app' zu der pdf-datei die ja vermutlich vorliegt, kannst du da irgendetwas markieren, oder ist es ein Bild bei dem die ganze Seite markiert ist?

Sorry, überlesen dasss es ein Scan ist. Dann ist es ein Bild, dann gehts so nicht
 
Du kannst das pdf in Vorschau in ein Bild umwandeln (ist es ja auch trotz der Endung pdf). Also z.B. TIFF. Unter speichern als statt pdf eben TIFF audswählen. Auflösung 300 dpi oder mit der Du gescannt hast. Dann Linien einfügen und wieder als PDF speichern.

Ansonsten solltest Du schauen, welche Steuerzeichen eventuell vorhanden sind im umgewandelten Text. Die kann man umwandeln.
Ansonsten fiele mir noch Indesign ein, welches man recht flexibel verwenden kann um aus Text eine Tabelle zu machen.
 
Ob Du nicht über ein Übersetzungsprogramm (Internet oder eigenständig) etwas erfolgreicher bist?
 
Ich habe die Datei wohl als Rohscan-pdf, als auch als OCR-pdf.

@joachim: die Datenbank soll auch für Vokabellerntabellen und apps verwendet werden, nicht nur für Übersetzungen.

Ich habe Acrobat X verwendet, das liefert zufriedenstellende Ergebnisse. (Exportieren zu ... und dann Wunschdatei aussuchen).
Danke für eure Vorschläge, von mir aus kann man das hier schließen.
 
....Meine Idee: Den Originalscan (also noch nicht OCR) nehmen, dort Linien ziehen und dann vielleicht nochmal ocr-scannen, in der Hoffnung, dass es dann eine Tabelle ist.

Da überschätzt du die Möglichkeiten der Technik...

Ich würde den Text mit paste und Copy in Word etc. einfügen, alle unnötigen Formatierungen wie Leerzeichen oder Tabs entfernen und aus dem richtig formatierten Text, etwa so

Vokabel 1, Vokabel 2 "return"
Vokabel 3, Vokabel 4 "return"
etc

Und dann das Gebilde mit einem Befehl in eine Tabelle umwandeln.

Lästige Formatierungszeichen lassen sich gut mit suchen und ersetzen umwandeln.
 
Zurück
Oben Unten