Dokumenten-Management mit Paperless-NGX

bowman · 20.06.2022

...ich bin letzte Woche auf diese Software-Perle zum Dokumentenmanagement gestoßen

https://github.com/paperless-ngx/paperless-ngx

und habe gerade das Wochenende mit Einrichten und Datenübernahme verbracht. Log story short: Ich bin schwer beeindruckt und begeistert. Da ich doch relativ häufig auf Macuser mitlese, dieses DMS bisher jedoch kaum erwähnt fand, hier ein paar Zeilen dazu:

Steckbrief

Funktion: Dokumentenmanagement-System (DMS)
Lizenz: GPL 3.0
Plattform: Jedes AMD64- oder ARM-System, auf dem Docker(-Compose) läuft (z.B. auch ein NAS)
Interface: Webfrontend
Features:
- Dokumenten-Übernahme (PDF, Office-Dokumente, Plaintext) aus geteiltem Ordner oder Email
- Speicherung der Orginale in Ordnern mit Jahr-Korrespondent-Systematik
- OCR
- Klassifikation: Tags, Dokument-Typ, Korrespondent, Datum
- Flexible Kombination von Stichworten und Kategorien zur Suche
- Maschinelles Lernen zur Klassifikation, herkömmliche (Stichwort-basierte) und manuelle Klassifikation ebenfalls möglich
- Automatische Übernahme des Erstellungs-Datums aus dem Dokumenten-Text
- Schnell-Vorschau
- Hervorragend dokumentiert: https://paperless-ngx.readthedocs.io/en/latest/

Mein Workflow

a) Dokumentenübernahme vom Scanner:

Dokumente in den Stapeleinzug stopfen
Auf dem Drucker-Display per Schellzugriffstaste den Stapeleinzug (oder ggf. Flachbett) auswählen
Der Drucker scannt alles und schickt es per Netzwerk auf eine SMB-Freigabe (Inbox) auf dem NAS
Paperless auf dem NAS erkennt neue Dokumente in der Inbox, macht darauf OCR, klassifiziert sie und ermittelt das Datum
Fertig.

b) Dokumentenübernahme aus Emails (Attachments)

Paperless (auf dem NAS) prüft alle 10 Minuten meinen Emailaccount
Wenn im Betreff neuer Emails spezielle (selbst definierbare) Stichworte wie "Rechnung" oder "Invoice" gefunden werden und die Mail ein Attachment enthält, wird dieses wie oben in 4. behandelt und danach die Emails als gelesen markiert. So markierte Mails werden von Paperless danach nicht weiter beachtet
Fertig.

Kurz und knapp: Ich bin schwer begeistert: Opensource, eine super Usability, keinerlei Bugs bisher festgestellt, hervorragend dokumentiert und vor allem: Es ist keine proprietäre Software. Paperless lässt sich dank Webinterface auch klasse auf dem iPad nutzen, zur Dokumentenerfassung ist keinerlei Interaktion (ausser direkt mit dem Scanner) erforderlich. Das Allerbeste: Es gibt kein Lock-In! Abgesehen davon, daß es eine tolle Export-Funktion gibt, liegen die Orginale als Dateien in einer Ordner-Systematik vor, wie ich sie ganz ähnlich auch manuell (ohne Verwendung eines DMS) anlgegen würde. Sprich: Sollte irgendwann mal die Weiterentwicklung eingestellt werden, habe ich immer eine saubere Ordner-Systematik und ich könnte jederzeit direkt auf die Dokumente zugreifen und zu einem anderen System wechseln.

Wichtig: In der docker-compose.yml müsse die Pfade zu einigen persistenten Speicherorten (Volumes) ausserhalb der Container eingetragen werden, wie das auf einem NAS geht ist z.B. hier erklärt: https://mariushosting.com/how-to-install-paperless-ngx-on-your-synology-nas/ (Ich mache das ohne Portainer direkt in der Konsole, ist einfacher...)

Fazit: Unbedingt anschauen!

Demo-System: https://demo.paperless-ngx.com/ (User und Passwort: demo)

lunchbreak · 20.06.2022

Konnte es jetzt nicht en detail lesen, aber geht das nur i.V. mit einem NAS?
Oder kann man es auch "normal" nutzen mit nur einem Rechner und einem Laptop zuhause?

Hintergrund:
Suche auch nach einem Tool/einer Lösung um endlich Ordnung in die vielen vielen Dokumente und Papiere zu bekommen, ...

tocotronaut · 20.06.2022

Nein. Ein Nas ist nicht notwendig.

Nur ein Computer auf dem du das installierst. Das kann auch der sein auf dem du arbeitest.

Allerdings muss der computer immer eingeschaltet sein, wenn du auf deine dokumente zugreifen willst.
Bei mehreren endgeräten/nutzern empfiehlt sich dann die Einrichtung eines Servers.

bowman · 20.06.2022

lunchbreak schrieb:
Konnte es jetzt nicht en detail lesen, aber geht das nur i.V. mit einem NAS?
Oder kann man es auch "normal" nutzen mit nur einem Rechner und einem Laptop zuhause?

Du kannst jeden Rechner mit AMD64- oder ARM-Architektur nutzen, auf dem Docker bzw. Docker-Compose eingerichtet werden kann.

Die Crux liegt aber im Workflow - meine Erfahrung ist: Damit papierloses Dokumentenmanagement im Alltag wirklich funktioniert, muß der Umgang mit den Dokumenten zeitsparend sein, d.h. es darf nicht wesentlich länger dauern als "abheften". Bei Papierdokumenten ist dabei der Verarbeitungsprozess mit dem Scanner entscheidend: Wenn ich bei jedem Papierchen das reinkommt erstmal den Scanner einschalten und zu dessen Bedienung auf einer App auf dem Rechner rumklicken muss, wird das nichts - zumindest ich hab mich dazu nie dauerhaft durchringen können. Zumal dann das eingescannte Dokument ja noch als PDF oder Bilddatei in der Inbox von Paperless abgelegt werden muß (direkt im Finder oder über die Weboberfläche). Hätte ich nicht einen Multifunktionsdrucker, der mit nur zwei Tastendrücken per Stapeleinzug beidseitig (!) scannen und das Ergebnis direkt als PDF übers Netzwerk in einer SMB-Freigabe (der Inbox von Paperless) ablegen kann, würde ich das vermutlich aus Faulheit nicht machen.
Bei neuen Dokumenten, die direkt als Mail-Attachment reinkommen, ist überhaupt keine Interaktion erforderlich, sofern Du Paperless Zugriff auf deinen IMAP-Account gibst.

lunchbreak schrieb:
Hintergrund:
Suche auch nach einem Tool/einer Lösung um endlich Ordnung in die vielen vielen Dokumente und Papiere zu bekommen, ...

...ich hab am Wochenende rund 1400 Dokumente eingelesen (die meisten allerdings aus Mails oder als bereits vorhandene Dateien) und die KI von Paperless angelernt. Eindeutige Sachen (Angebote, Aufträge, Rechnungen, Lieferscheine, Kontoauszüge etc.) klassifiziert und taggt es jetzt nach einer manuellen "Anlernphase" automatisch, auch die Datumserkennung funktioniert erstaunlich gut. Neu eingelesene Dokumente erhalten immer ein spezielles Tag durch die Inbox zugewiesen (bei mir "Neu"). In einer entsprechend gefilterten Ansicht schaue ich noch mal kurz über alle neuen Sachen drüber und korrigiere ggf. noch Klassifikationen. Danach werden die alle gesammelt markiert und das "Neu"-Tag entfernt (Paperless lernt nur von Dokumenten ohne dieses Tag). Das geht fix und macht Spaß - ich war noch nie so gut organisiert... :hehehe:

lunchbreak · 20.06.2022

Danke für Deine ausführliche Antwort!

(Aber) das hier:

bowman schrieb:
...
... Hätte ich nicht einen Multifunktionsdrucker, der mit nur zwei Tastendrücken per Stapeleinzug beidseitig (!) scannen und das Ergebnis direkt als PDF übers Netzwerk in einer SMB-Freigabe (der Inbox von Paperless) ablegen kann, würde ich das vermutlich aus Faulheit nicht machen.
...

... das müßte doch auch ohne NAS gehen. Oder?
Also einfach wenn der Rechner oder das Notebook eingeschaltet ist, dann Dokumente auf den Scanner legen und der schickt es an den Rechner oder das Notebook (wo sich die Software befindet).

Ich habe halt einen Hänger mit NAS, sowas habe ich nicht und das ist wie ein Berg für mich - sprich ich würde da lieber im Moment die Finger von lassen und eine schmale Home-Lösung ohne NAS bevorzugen. Rechner, Notebook und ein Epson Multifunktionsgerät sind da und alle per WLAN an der Fritz!Box. Freigaben oder so habe ich aber noch nicht.

VG

lunchbreak · 20.06.2022

tocotronaut schrieb:
Nein. Ein Nas ist nicht notwendig.

Nur ein Computer auf dem du das installierst. Das kann auch der sein auf dem du arbeitest.

Allerdings muss der computer immer eingeschaltet sein, wenn du auf deine dokumente zugreifen willst.
Bei mehreren endgeräten/nutzern empfiehlt sich dann die Einrichtung eines Servers.

Ah, danke. Den Post habe ich wohl gerade irgendwie übersehen, als ich meine andere Antwort getippt habe.

Irgendwo · 20.06.2022

DEVONthink Pro mal angeschaut? Ist in dem Bereich auf dem Mac aus meiner Sicht der Marktführer …

bowman · 20.06.2022

Irgendwo schrieb:
DEVONthink Pro mal angeschaut? Ist in dem Bereich auf dem Mac aus meiner Sicht der Marktführer …

...das mal angeschaut?

So lange man DevonThink nur auf einem Rechner nutzt mag das ja gut funktionieren. Das Konzept der Synchronisierung von Datenbanken aller Clients über einen Sync-Store halte ich jedoch für geradezu grotesk unnötig. Wozu holt man sich, bei mitunter immens wichtigen Daten, so ein Risiko ins Haus? Wenn dann noch auf mehreren verteilten Datenbanken parallel auf den selben Datensätzen gearbeitet wird, kommt man direkt in die feinste Sync-Hölle. Wieso zum Geier müssen komplexe Datenbanken mit Dokumenten im Grundansatz offline verfügbar sein? Was spricht denn gegen die gute alte Client-Server-Struktur oder gegen das Arbeiten im Webinterface direkt auf dem Server, wenn Daten nur innerhalb eines Netzwerkes (im Haushalt) zugreifbar sein müssen?
Nein, sowas käme mir definitiv nicht ins Haus. Alleine schon deshalb, weil das eine proprietäre, nur auf Macs laufende Software ist. Was ist, wenn man irgendwann mal von Macs den Kanal voll hat? Oder jemand anderes die Daten weiternutzen soll, der keine Macs einsetzt? Viel Spaß beim Exportieren und Weiternutzen der Metadaten...

Irgendwo · 20.06.2022

Du magst recht haben, dass devonthink ggf. als Sync nicht sauber läuft. Dafür einen 2 Jahre alten Artikel heranzuziehen - nunja, keine Ahnung wie da der Stand ist. Und von wichtigen Daten zu sprechen und im gleichen Atemzug ein GitHub-Projekt anzupreisen - auch Geschmackssache.

Aber jedem das seine.

PS: der Export aus devonthink ist übrigens sehr einfach möglich, das Szenario des Wegfalls vom Mac haben nämlich schon einige durchdacht.

MacKaz · 20.06.2022

Wo soll denn das Problem beim Export liegen?
Die Daten zieht man einfach raus und hat dann wieder „Originale“, ggf. mit angepasstem „Drumherum“, wenn man zum Beispiel in DT Tags gesetzt hat.

bowman schrieb:
...das mal angeschaut?

So lange man DevonThink nur auf einem Rechner nutzt mag das ja gut funktionieren. Das Konzept der Synchronisierung von Datenbanken aller Clients über einen Sync-Store halte ich jedoch für geradezu grotesk. Wozu holt man sich, bei mitunter immens wichtigen Daten, so ein unnötiges Risiko ins Haus? Wenn dann noch auf mehreren verteilten Datenbanken parallel auf den selben Datensätzen gearbeitet wird, kommt man direkt in die feinste Sync-Hölle. Wieso zum Geier müssen komplexe Datenbanken mit Dokumenten im Grundansatz offline verfügbar sein? Was spricht denn gegen die gute alte Client-Server-Struktur oder gegen das Arbeiten im Webinterface direkt auf dem Server, wenn Daten nur innerhalb eines Netzwerkes (im Haushalt) zugreifbar sein müssen?
Nein, sowas käme mir definitiv nicht ins Haus. Alleine schon deshalb, weil das eine proprietäre, nur auf Macs laufende Software ist. Was ist, wenn man irgendwann mal von Macs den Kanal voll hat? Oder jemand anderes die Daten weiternutzen soll, der keine Macs einsetzt? Viel Spaß beim Exportieren und Weiternutzen der Metadaten...

lunchbreak · 21.06.2022

bowman schrieb:
...ich bin letzte Woche auf diese Software-Perle zum Dokumentenmanagement gestoßen

https://github.com/paperless-ngx/paperless-ngx

...

Guten Tag zusammen.

Wie sieht es mit der Datensicherheit bei dieser Lösung/diesem Angebot aus?
Läuft man Gefahr, daß eingescannte Daten (wie, auf welchem Weg auch immer) ihren Weg von der lokalen Festplatte zum Betreiber der Doku-Management-Software finden?

ruerueka · 21.06.2022

lunchbreak schrieb:
Guten Tag zusammen.

Wie sieht es mit der Datensicherheit bei dieser Lösung/diesem Angebot aus?
Läuft man Gefahr, daß eingescannte Daten (wie, auf welchem Weg auch immer) ihren Weg von der lokalen Festplatte zum Betreiber der Doku-Management-Software finden?

Der Betreiber bist du selbst, wenn du es auf deinem Rechner installierst. Wenn du auf Nummer sicher gehen willst, dass das System deine Daten nicht irgendwo hinschickt, kannst du ja z.B. für den Zeitraum eines Tests den Zugang zum Internet blockieren oder mit einem Netzwerksniffer schauen, was das Teil so macht oder mit LittleSnitch (wenn du es auf dem Mac lokal installierst) das "nach draußen telefonieren" für die Software verbieten. Da es opensource ist, könntest du natürlich auch den Quellcode lesen bzw nach Netzwerkzugriffen durchsuchen, aber das ist doch recht aufwändig.
Ach ja, ganz unten im README des oben verlinkten Projektes steht:

Important Note
Document scanners are typically used to scan sensitive documents. Things like your social insurance number, tax records, invoices, etc. Everything is stored in the clear without encryption. This means that Paperless should never be run on an untrusted host. Instead, I recommend that if you do want to use it, run it locally on a server in your own home.

lunchbreak · 21.06.2022

Vielen Dank. Also Little Snitch als Helfer, ok.

PS:
Kannst Du mir evtl. auch einen (anderen) "Netzwerksniffer" wie Du es nennst, nennen?

Danke und sorry für das OT.

ruerueka · 21.06.2022

Eine Alternative zu LittleSnitch ist Lulu. Der Klassiker ist wireshark. Ob das jetzt einfach zu bedienen ist, steht auf einem anderen Blatt. Ich halte das für zu komplex für Anfänger. Ich halte das aber alles nicht für sonderlich sinnvoll, wenn du es wirklich sicher im Sinne von "darf wirklich nichts uploaden" haben willst, musst du das DMS (egal welches) auf einem externen Gerät (Raspi? NAS?) installieren und diesem komplett den Zugriff ins Internet verbieten.

lunchbreak · 21.06.2022

OK. Also die "Nummer sicher" ist mit weiterem Aufwand in Hardware und das Bedienen/Managen dieser Geräte verbunden.

tigion · 21.06.2022

Der "Aufwand" gilt aber für jede Software, welche Daten hält/verwaltet, die nicht ungefragt an Dritte gehen sollen. Deswegen auch der Hinweise mit der lokalen Installation zu Hause, da so der Zugriff Dritter von außen in der Regel nicht gegeben ist.

Ein Netzwerksniffer nützt dir aber auch nur etwas, wenn man weis wonach man suchen muss bzw. erkennt, ob Daten ungefragt übertragen werden. Erlaubte Nutzerstatistiken oder Anfragen nach Updates sind ja erstmal nicht kritisch.

lunchbreak · 21.06.2022

OK. Zuhause mit gängiger HW (Rechner/Laptop/Router/Scanner im WLAN), alles kein Problem. Aber NAS oder so, da möchte ich lieber nicht ran, auf absehbare Zeit.

VG

tigion · 21.06.2022

Ein NAS ist ja erstmal auch nur ein Rechner/Laptop bei dir zu Hause, welches seine Festplatte als Netzlaufwerk bereitstellt. Sodass du eben eine externe Festplatte nicht von einem zum anderen Rechner umsteckst, sondern beide über dein WLAN/LAN zu Hause direkt parallel auf die enthaltene Festplatte im NAS zugreifen können. Macht aber auch nur Sinn, wenn man so etwas braucht.

Meist tut es aber auch eine externe Festplatte, wenn die interne zu klein ist bzw. Dinge ausgelagert werden sollen.

bowman · 21.06.2022

lunchbreak schrieb:
OK. Zuhause mit gängiger HW (Rechner/Laptop/Router/Scanner im WLAN), alles kein Problem. Aber NAS oder so, da möchte ich lieber nicht ran, auf absehbare Zeit.

VG

…ich frage mich, ob Du dich wirklich mit wichtigen Daten an eine auf Docker basierende Software heranwagen solltest, wenn Du dir ein NAS nicht zutraust.
Nicht falsch verstehen: Docker ist nicht kompliziert, aber die Installation erfordert ein paar grundlegende Kenntnisse im Umgang mit der Konsole, evtl. etwas Einarbeitungsaufwand und Recherche.
Ich würde empfehlen, das erstmal auf einem Testsystem - vielleicht einer virtuellen Maschine - auszuprobieren.

lunchbreak · 21.06.2022

Ja, ich habe keine Ahnung von "Dockern" / weiß nicht was das ist. In meiner Welt gibt es Programme, die installiere ich auf dem Rechner oder dem Laptop. Also ja, wahrscheinlich hast Du Recht.

Dokumenten-Management mit Paperless-NGX

bowman

Aktives Mitglied

lunchbreak

Aktives Mitglied

tocotronaut

Aktives Mitglied

bowman

Aktives Mitglied

lunchbreak

Aktives Mitglied

lunchbreak

Aktives Mitglied

Irgendwo

Aktives Mitglied

bowman

Aktives Mitglied

Irgendwo

Aktives Mitglied

MacKaz

Aktives Mitglied

lunchbreak

Aktives Mitglied

ruerueka

Aktives Mitglied

Important Note​

lunchbreak

Aktives Mitglied

ruerueka

Aktives Mitglied

lunchbreak

Aktives Mitglied

tigion

Aktives Mitglied

lunchbreak

Aktives Mitglied

tigion

Aktives Mitglied

bowman

Aktives Mitglied

lunchbreak

Aktives Mitglied

Important Note