PDF in CSV Dateien wandeln (maschinell lesbar) - WIE?!

merovinger

merovinger

Aktives Mitglied
Thread Starter
Dabei seit
20.04.2004
Beiträge
127
Reaktionspunkte
2
Informationen:
System: OS X 10.10 (Yosemite)
Software: msuFakt / Adobe PDF
Hardware: MacBook Pro 15" (2012, i7), 16 GBRAM

Situation:
Ich würde gerne Rechnungen etc. (welche im PDF Format vorliegen) umwandeln in CSV Dateien, damit ich diese in ein anderes Programm (in diesem Fall msuFakt) importieren kann.

Habe ein paar Programme / Converter (PDF zu CSV) ausprobiert. - Allerdings mit dem Ergebnis, das am Ende nur Kauderwelsch bei rausgekommen ist und die Dateien nicht wirklich maschinell lesbar in Listenform dargestellt wurden sind.
Ich bin leider auch nicht allzu bewandert mit der Programmierung von Scripts (Terminal, Automator etc.)!

Anmerkung:
Ich habe eine Beispielsdatei angehängt, welche Daten ich benötigen würde!

Fragen:
1. Wie kann ich diese PDF Dateien in maschinell lesbare Listenform (CSV-Datei) umwandeln?
2. Gibt es irgendein Programm, welches das für mich (Apple-Like....easy ohne nachzudenken) in die Form bringt wie ich es benötige (PDF zu CSV)?
3. Oder gibt es eine Art Script, welches man nutzen kann?
4. Evtl. könnte mir ein pfiffiger und besser bewanderter MacUser (für den solch eine Programmierung, nur ein müdes Gähnen abverlangen würde), als ich es bin behilflich sein und solch ein Script mit mir zusammen ausarbeiten?!

Gruß Merovinger
 

Anhänge

  • Beispiel_MACUSER.jpg
    Beispiel_MACUSER.jpg
    48,3 KB · Aufrufe: 93
Die Antwort steht im anderen von Dir gestartetem thread…
Die Software von Cayuna kann mehrere Elemente eines PDFs in CSV-Felder oder Dateien verwandeln. Bei vielen, immer verschiedenen PDF-Rechnungen wird aber wohl immer etwas Handarbeit (Felddefinitionen per Klick) notwendig sein.
 
Das ist so nicht pauschal beantwortbar, denn ich kann auch problemlos eine pdf-Datei anlegen, die eine Tabelle enthält und bei der die Daten in der Datei nicht in einer Form abgelegt sind, die ein Konverter als Tabelle erkennen kann. Es kommt also drauf an, wie die pdf-Datei erstellt wurde und wie der Konverter arbeitet.
Am einfachsten und daher auch am fehlerunanfälligsten wäre vermutlich ein "Konverter", der die PDF-Datei in eine Rastergraphik umwandelt und dann mittels OCR "tabellarisch angeordnete Elemente" in eine CSV überführt. Das ist am einfachsten, da es dann wirklich nur auf den dargestellten Inhalt ankommt und nicht wie genau diese Informationen in der pdf-Datei kodiert sind.
 
Das ist so nicht pauschal beantwortbar, denn ich kann auch problemlos eine pdf-Datei anlegen, die eine Tabelle enthält und bei der die Daten in der Datei nicht in einer Form abgelegt sind, die ein Konverter als Tabelle erkennen kann. Es kommt also drauf an, wie die pdf-Datei erstellt wurde und wie der Konverter arbeitet.

Moin,
ich bestätige mal die geäußerte Befürchtung. Ein Testlauf mit einem mir vorliegenden Angebots-PDF und dem anschließenden Export aus Acrobat Professional, mittels "Sichern unter" als Excel-Datei, erbrachte fehlerfreien Text und ein Tabellenblatt. Doch die Freude verflog rasch. Statt sauberer Trennung in Excel-Spalten/Felder, waren es Datenfelder mit aufgefüllten "Leerzeichen".
Also unbrauchbar. Das bestätigt meine bisherigen Erfahrungen mit Konvertierungen von PDFs in native Anwendungsprogramme bzw. Formate.

Gruß
Günther
 
Zurück
Oben Unten