Datenbank für PDF, Word - Spezial

MCinteressent

Aktives Mitglied
Thread Starter
Dabei seit
07.09.2009
Beiträge
104
Reaktionspunkte
0
hallo,

ich benötige eine Verwaltungssoftware für folgende Anwendung:

Mehrere Hundert PDF-Files
Diese kann man ja mit dem Acrobatreader nach bestimmten Bregriffen oder Nummernfolgen durchsuchen, nur dauert das bei mehreren Hundert PDF zu lange!

Gibt es eine Software, die bei den PDF die Daten auslesen kann, nur Buchstaben und Zahlen, diese in einer "metadatei" speichert, wo man mit einer Suchabfrage alle Dokumente gleichzeitig durchsuchen kann und ggf. nicht nur das Dokument vorgeschlagen bekommt, dass den Begriff oder die Nummernfolge enthält, sondern auch die Seite auf der es steht?

Das Ganze muss gruppentauglich sein, d.h. Was ich einlese, muss ich in die Cloud oder besser, auf einen FTP-Server laden können, so das andere Gruppenmitglieder diese Daten Downloaden können und ebenso in diesem Datenstand suchen können.

Am allerbesten: alle dürfen Uploaden, ein Admin gibt frei und nach Freigsbe darf jeder Downloaden.

Das ganze darf auch Geld kosten!

Ich bin für Vorschläge offen und dankbar!
 
Grundsätzlih geht so etwas: https://www.npmjs.com/package/pdf2text
Wie gut die Qualität ist und ob nicht doch einige vermeintliche Texte als z.B. JPEGS in den PDF enthalten sind (das ist manchmal durchaus absichtlich der Fall) hängt von einer Einzelfallprüfung ab. Natürlich könnte man automatisch alle PDF nach upload scannen und wenn sich ein Schema abzeichnet diese in einer DB erfassen.
 
Die vermeintlichen TextJpegs sind leider manchmal da, damit kann ich leben, betrifft aber nur 0,01% meiner Daten.

Es muss wirklich alles gescannt werden und dann soll das für jeden zugänglich sein, der dieser Gruppe angehört.

Wenn dann bei der Suche nicht nur das PDF, sondern auch gleich die richtige Seite ausgespuckt wird und am Schluss die das aufgerufene Dokument in einer Acrobatumgebung lauft, würde ich das fertige Programm kaufen.

Kleine Schwiwrigkeit am Rande:

Man müsste jedem Dokument mehrere verschiedene "Ebenen" oder Verzeichnisse in den Metadaten zuweisen können, denn folgendes:

Der Suchbegriff "idwzfqeikhf" taucht in 100dokumenten von den 5000 auf, dann weiß ich aber, dass ich diesen Begriff im zusammenhang mit einem bestimmten Lieferanten/Kunden oder in einer bestimmten Baugruppe suche. Dies müsste man selektieren können, das wäre dann mein Wunschprogramm.
 
Grundsätzlich geht das! Mit dem Programm pdf2html (gibt es für Linux, also bestimmt auch für Mac) kann man aus den meisten PDF eine HTML-Seite machen. Die kann man durchsuchen, natürlich auch nach mehreren Begriffen. Müßte man halt ggf, eine Datenbank dafür erstellen.
 
Das größere Problem ist, ich suche eine Kpl. fertige Software dafür, da ich mich mit Programmierungen usw. Gar nicht befasse.

Also die eierlegendewollmilchsau für PDF Verwaltung.
 
Das wäre dann aber sicher eine Individuallösung!
 
Wer auch immer programmiererfahrung hat und das für unter 100€ bringen kann, der ist ein Held!

Evtl. muss ich mal schauen was es generell an Software dazu gibt, u.U. bietet jemand ein System an, was mir etwas bringt, egal ob die Lizenz jetzt 50€ oder 100€ kostet.
 
Zurück
Oben Unten