Dokumenten-Management mit Paperless-NGX

OK. Also die "Nummer sicher" ist mit weiterem Aufwand in Hardware und das Bedienen/Managen dieser Geräte verbunden.
Den Aufwand für neue Hardware kann man sich sparen, indem man eine virtuelle Maschine ausfestzt, die keinen Zugriff auf das Internet hat, und dort das DMS installiert. Den Bedienaufwand hat man aber genauso.

Ich würde da ein Programm suchen, zu dem ich Vertrauen habe, und mich dann nicht mehr darum kümmern, ob das Programm Internetzugriffe hat. Bei Open Source ist es schwer, solche Spionagefunktionen unentdeckt einzubauen. Und ein solider Hersteller, der aus einem vertrauenswürdigen Land (also nicht Russland oder China) kommt, hat zu viel zu verlieren, als dass er Spionagefunktionen einbauen würde. Und statt selbst zu prüfen, würde ich lieber gelegentlich in die Presse (offline oder online, Internetseiten und Blogs eingeschlossen) schauen, ob es da Berichte gibt.
 
  • Gefällt mir
Reaktionen: bowman und lunchbreak
Interessantes Thema zu dem ich schon lange auf der Suche bin.

Kann man auch mit dem iPhone Dokumente scannen und an paperless schicken? Habe fix das Readme überflogen und was von Android Apps gelesen und dem Hinweis das der Entwickler kein iOS nutzt und dementsprechend nicht bereitstellt.

Ich habe gedacht mit Docutain DIE gratis Lösung gefunden zu haben, aber es gibt keine macOS Version. Devonthink ist mir für das bisschen scannen und archivieren was bei mir anfällt definitiv zu teuer.

Ich habe leider keinen Multifunktionsdrucker und plane auch keinen anzuschaffen.
Ich überlege aber schon lange einen NAS anzuschaffen. Wenn das hier funktioniert wäre es ein weiterer Grund endlich los zu legen.
 
Wichtig: In der docker-compose.yml müsse die Pfade zu einigen persistenten Speicherorten (Volumes) ausserhalb der Container eingetragen werden, wie das auf einem NAS geht ist z.B. hier erklärt: https://mariushosting.com/how-to-install-paperless-ngx-on-your-synology-nas/ (Ich mache das ohne Portainer direkt in der Konsole, ist einfacher...)


Fazit: Unbedingt anschauen! (y):D
Demo-System: https://demo.paperless-ngx.com/ (User und Passwort: demo)

Mir geht es ähnlich wie Dir. Auch ich haben den Wechsel zu Paperless ngx mehr als nur ins Auge gefasst. Aktuell nutze ich noch DevonThink (Privathaushalt). Es funktioniert gut, ist aber mittlerweile schon etwas überladen. Ich nutze vielleicht 20% der Funktionen.

Paperless ngx läuft auf meiner DS1522+ - viele Deine Eindrücke kann ich zu 100% teilen.

Aktuell steht die Einrichtung des Scanners (ScanSnap ix1600) an. Installiert habe ich Paperless via Portainer mit der Anleitung die Du oben verlinkt hast. In der Folge habe ich noch eine paar Anpassungen gemacht.

Was den ‚consume‘ Ordner betrifft ist dieser noch gemäss der erwähnten Anleitung platziert. Ich habe vor, auf der obersten Ebene des NAS einen ‚Inbox-Ordner‚ einzurichten in den dann direkt gescannt werden kann. Doch bevor ich an den Pfaden herumbastle und dann nix mehr funktioniert - bin Laie - eine Frage:

Wenn ich in der yml Datei (Portainer, Editor) den Pfad verändere, weiss dann Paperless automatisch, wo die eingescannten Files liegen? Gibt es in der Tat keine anderen Anpassungen, als einfach nur den Pfad zu ändern?

Beste Grüsse
 
@bowman

Ich kann mir die Antwort gleich selbst geben:

Den Pfad in der Stack-Datei habe ich via Portainer-Editor ich wie folgt geändert:

Vorher: - /volume1/docker/paperlessngx/consume:/usr/src/paperless/consume
Nachher: - /volume1/paperinbox:/User/sec/paperless/consume

Nun kann ich ohne laufenden PC direkt vom Scanner auf das NAS scannen und Paperless holt das Dokument automatisch ab und ordnet es ein.
 
...ich bin letzte Woche auf diese Software-Perle zum Dokumentenmanagement gestoßen

https://github.com/paperless-ngx/paperless-ngx

und habe gerade das Wochenende mit Einrichten und Datenübernahme verbracht. Log story short: Ich bin schwer beeindruckt und begeistert. Da ich doch relativ häufig auf Macuser mitlese, dieses DMS bisher jedoch kaum erwähnt fand, hier ein paar Zeilen dazu:

Steckbrief
  • Funktion: Dokumentenmanagement-System (DMS)
  • Lizenz: GPL 3.0
  • Plattform: Jedes AMD64- oder ARM-System, auf dem Docker(-Compose) läuft (z.B. auch ein NAS)
  • Interface: Webfrontend
  • Features:
    • Dokumenten-Übernahme (PDF, Office-Dokumente, Plaintext) aus geteiltem Ordner oder Email
    • Speicherung der Orginale in Ordnern mit Jahr-Korrespondent-Systematik
    • OCR
    • Klassifikation: Tags, Dokument-Typ, Korrespondent, Datum
    • Flexible Kombination von Stichworten und Kategorien zur Suche
    • Maschinelles Lernen zur Klassifikation, herkömmliche (Stichwort-basierte) und manuelle Klassifikation ebenfalls möglich
    • Automatische Übernahme des Erstellungs-Datums aus dem Dokumenten-Text
    • Schnell-Vorschau
    • Hervorragend dokumentiert: https://paperless-ngx.readthedocs.io/en/latest/

Mein Workflow

a) Dokumentenübernahme vom Scanner:
  1. Dokumente in den Stapeleinzug stopfen
  2. Auf dem Drucker-Display per Schellzugriffstaste den Stapeleinzug (oder ggf. Flachbett) auswählen
  3. Der Drucker scannt alles und schickt es per Netzwerk auf eine SMB-Freigabe (Inbox) auf dem NAS
  4. Paperless auf dem NAS erkennt neue Dokumente in der Inbox, macht darauf OCR, klassifiziert sie und ermittelt das Datum
  5. Fertig.
b) Dokumentenübernahme aus Emails (Attachments)
  1. Paperless (auf dem NAS) prüft alle 10 Minuten meinen Emailaccount
  2. Wenn im Betreff neuer Emails spezielle (selbst definierbare) Stichworte wie "Rechnung" oder "Invoice" gefunden werden und die Mail ein Attachment enthält, wird dieses wie oben in 4. behandelt und danach die Emails als gelesen markiert. So markierte Mails werden von Paperless danach nicht weiter beachtet
  3. Fertig.

Kurz und knapp: Ich bin schwer begeistert: Opensource, eine super Usability, keinerlei Bugs bisher festgestellt, hervorragend dokumentiert und vor allem: Es ist keine proprietäre Software. Paperless lässt sich dank Webinterface auch klasse auf dem iPad nutzen, zur Dokumentenerfassung ist keinerlei Interaktion (ausser direkt mit dem Scanner) erforderlich. Das Allerbeste: Es gibt kein Lock-In! Abgesehen davon, daß es eine tolle Export-Funktion gibt, liegen die Orginale als Dateien in einer Ordner-Systematik vor, wie ich sie ganz ähnlich auch manuell (ohne Verwendung eines DMS) anlgegen würde. Sprich: Sollte irgendwann mal die Weiterentwicklung eingestellt werden, habe ich immer eine saubere Ordner-Systematik und ich könnte jederzeit direkt auf die Dokumente zugreifen und zu einem anderen System wechseln.

Wichtig: In der docker-compose.yml müsse die Pfade zu einigen persistenten Speicherorten (Volumes) ausserhalb der Container eingetragen werden, wie das auf einem NAS geht ist z.B. hier erklärt: https://mariushosting.com/how-to-install-paperless-ngx-on-your-synology-nas/ (Ich mache das ohne Portainer direkt in der Konsole, ist einfacher...)


Fazit: Unbedingt anschauen! (y):D
Demo-System: https://demo.paperless-ngx.com/ (User und Passwort: demo)
 
...ich bin letzte Woche auf diese Software-Perle zum Dokumentenmanagement gestoßen

https://github.com/paperless-ngx/paperless-ngx

und habe gerade das Wochenende mit Einrichten und Datenübernahme verbracht. Log story short: Ich bin schwer beeindruckt und begeistert. Da ich doch relativ häufig auf Macuser mitlese, dieses DMS bisher jedoch kaum erwähnt fand, hier ein paar Zeilen dazu:

Steckbrief
  • Funktion: Dokumentenmanagement-System (DMS)
  • Lizenz: GPL 3.0
  • Plattform: Jedes AMD64- oder ARM-System, auf dem Docker(-Compose) läuft (z.B. auch ein NAS)
  • Interface: Webfrontend
  • Features:
    • Dokumenten-Übernahme (PDF, Office-Dokumente, Plaintext) aus geteiltem Ordner oder Email
    • Speicherung der Orginale in Ordnern mit Jahr-Korrespondent-Systematik
    • OCR
    • Klassifikation: Tags, Dokument-Typ, Korrespondent, Datum
    • Flexible Kombination von Stichworten und Kategorien zur Suche
    • Maschinelles Lernen zur Klassifikation, herkömmliche (Stichwort-basierte) und manuelle Klassifikation ebenfalls möglich
    • Automatische Übernahme des Erstellungs-Datums aus dem Dokumenten-Text
    • Schnell-Vorschau
    • Hervorragend dokumentiert: https://paperless-ngx.readthedocs.io/en/latest/

Mein Workflow

a) Dokumentenübernahme vom Scanner:
  1. Dokumente in den Stapeleinzug stopfen
  2. Auf dem Drucker-Display per Schellzugriffstaste den Stapeleinzug (oder ggf. Flachbett) auswählen
  3. Der Drucker scannt alles und schickt es per Netzwerk auf eine SMB-Freigabe (Inbox) auf dem NAS
  4. Paperless auf dem NAS erkennt neue Dokumente in der Inbox, macht darauf OCR, klassifiziert sie und ermittelt das Datum
  5. Fertig.
b) Dokumentenübernahme aus Emails (Attachments)
  1. Paperless (auf dem NAS) prüft alle 10 Minuten meinen Emailaccount
  2. Wenn im Betreff neuer Emails spezielle (selbst definierbare) Stichworte wie "Rechnung" oder "Invoice" gefunden werden und die Mail ein Attachment enthält, wird dieses wie oben in 4. behandelt und danach die Emails als gelesen markiert. So markierte Mails werden von Paperless danach nicht weiter beachtet
  3. Fertig.

Kurz und knapp: Ich bin schwer begeistert: Opensource, eine super Usability, keinerlei Bugs bisher festgestellt, hervorragend dokumentiert und vor allem: Es ist keine proprietäre Software. Paperless lässt sich dank Webinterface auch klasse auf dem iPad nutzen, zur Dokumentenerfassung ist keinerlei Interaktion (ausser direkt mit dem Scanner) erforderlich. Das Allerbeste: Es gibt kein Lock-In! Abgesehen davon, daß es eine tolle Export-Funktion gibt, liegen die Orginale als Dateien in einer Ordner-Systematik vor, wie ich sie ganz ähnlich auch manuell (ohne Verwendung eines DMS) anlgegen würde. Sprich: Sollte irgendwann mal die Weiterentwicklung eingestellt werden, habe ich immer eine saubere Ordner-Systematik und ich könnte jederzeit direkt auf die Dokumente zugreifen und zu einem anderen System wechseln.

Wichtig: In der docker-compose.yml müsse die Pfade zu einigen persistenten Speicherorten (Volumes) ausserhalb der Container eingetragen werden, wie das auf einem NAS geht ist z.B. hier erklärt: https://mariushosting.com/how-to-install-paperless-ngx-on-your-synology-nas/ (Ich mache das ohne Portainer direkt in der Konsole, ist einfacher...)


Fazit: Unbedingt anschauen! (y):D
Demo-System: https://demo.paperless-ngx.com/ (User und Passwort: demo)
Wenn ich dich so richtig verstehe, dann funktioniert das mit dem 10 minütigen Abruf von Emails aus deinem Email-Account. Bei mir leider nicht, obwohl es so simpel in der paperless-ngx Doku beschrieben wird. Meine Frage hierzu: Muss ich für den Abruf erst noch eine Aufgabe erstellen und wenn ja, welche Parameter sind darin erforderlich? Eine Aufgabe in paperless-ngx zu erstellen, ist für mich noch sehr nebulos, weil ich bisher noch keine Doku dazu gefunden habe.
 
Hallo @anyman

Ich hatte auch etwas Mühe mit den E-Mail-Einstellungen. Mittlerweile nach sicherlich 10-20 Versuchen funktioniert es wunschgemäss.

Nein, eine zusätzliche Aufgabe musste ich nicht erstellen.

- Als erste habe ich im Admin-Bereich eine E-Mail-Adresse hinterlegt
- Danach - auch im Admin-Bereich eine Regel definiert.

Probleme hatte ich mit den Ports. Hier musste ich den Port 993/SSL nehmen, obwohl ich den betreffenden Account normalerweise anders Abrufe.
Ausserdem musste ich zwei unterschiedliche E-Mail-Adressen nutzen. Adresse 1 hinterlegen und Adresse 2 als Absender-E-Mail definieren. Sich selber eine E-Mail-senden, die dann von PP erfasst wird hat nicht funktioniert.
Desweiteren musste ich ALLE Felder der betreffenden Regel ausfüllen. Sobald ich die Zum Beispiel den definierten ‘Betreff‘ leer lies, funktionierte es nicht.

Noch nicht gelöst habe ich die Frage, wie eine zweite Absender-Adresse erfasst wird.
 
Hallo @bowman

vielen Dank für deine ausführliche Beschreibung.
Ich habe mal alles, so wie du es ausgeführt hast, nachgemacht, aber leider funktioniert es immer noch nicht.
Was mir besonders auffällt, ist, dass ich nicht einmal ein mail.login unter dem Menüpunkt "Protokolle" in paperless-ngx bekomme.
Irgendwie habe ich den Eindruck, dass noch etwas Grundsätzliches fehlt. Soetwas, wie ein Trigger, der die ganze Sache erst einmal startet, oder so.
Muss ich evtl. noch einen Port im Router weiterleiten?
Bei der Installation in Docker habe ich für den Portainer-Stack das Script von Marius Bogdan übernommen. Darin steht allerdings nichts über den Emailabruf.
 
@anyman: Du brauchst eigentlich nur ein Konto definieren das auf Dokumente untersucht werden soll (hier bowman@...) und mindestens eine Regel, siehe Anhang, siehe auch https://docs.paperless-ngx.com/usage/#usage-email. Ich nutze zwei Regeln um Rechnungen zu erkennen ("Rechnung" und "Invoice"). Auch beachten: Das funktioniert nur, wenn das in der Regel genannte Stichwort im Betreff der Mail auftaucht und das Dokument ein PDF-Anhang der Mail ist.

Eigentlich unnötig, aber zur Bequemlichkeit nutze ich noch einen zweiten, speziellen Mailaccount (paperlessinbox@...) nur für Paperless zum Import alter Mails - diese schicke ich (von anderen Konten) als Kopie an diesen Account, dort werden sie nach der Verarbeitung gelöscht.

Portfreigaben am Router brauchst Du natürlich keine, denn Paperless holt sich die Mails vom Mailserver wie jedes andere Mailprogramm auf einem Endgerät (Portfreigaben braucht man nur, wenn Du auf dem NAS Dienste anbietest, die von aussen erreichbar sein sollen). Bei den Regeln beachten: Bei meinem Setting verarbeitet Paperless (alle zehn Minuten) nur *ungelesene* Mails (!) und markiert sie danach als gelesen, denn die Mails verbleiben ja im INBOX-Ordner des IMAP-Servers und dürfen ja nur einmal verarbeitet werden.

ksnip_20221230-221342.pngksnip_20221230-221143.pngksnip_20221230-220347.pngksnip_20221230-220323.pngksnip_20221230-220227.png
 
Zuletzt bearbeitet:
@bowan: Nochmals vielen, vielen Dank für deine super Erklärungen. Ich hatte alles exakt nach deinem Beispiel eingestellt, trotzdem funktionierte der Mail-Abruf nicht.

Dann las ich aber des Rätsels Lösung: Um über paperless-ngx auf mein Mailkonten zugreifen zu können, musste ich aus Sicherheitsgründen für dieses Konto erst ein s.g. "anwendungsspezifisches Passwort" erstellen. Diese Möglichkeit wird bei diversen Mailanbietern angeboten.

Die Freude über den nun funktionierenden Mail-Abruf hielt aber nur kurze Zeit an.
Bei einem Klick auf den Menüpunkt "erfolgreiche Aufgaben" erhielt ich die folgenden seltsamen Aufgaben, die weder ich eingegeben habe, noch erscheinen sie in den "Geplanten Aufgaben".
Hast du evtl. eine Erklärung dafür? Es kann sich doch eigentlich nur um irgendwelche Testeintrage aus der Entwicklung in einer DB handeln, oder?

Bildschirmfoto vom 2023-01-04 14-12-03.png
 
Nach diversen Tests kann ich mir nun selbst eine Antwort auf mein Problem mit den seltsamen Aufgabennamen geben. Es sind nichts anderes als Prozess-ID's, die immer wieder willkürlich neu zusammengesetzt werden, bestehend aus vier x-beliebigen Begriffen, verbunden mit jeweils drei Minuszeichen. Diese Art einer eindeutigen Task-ID war mir bisher leider völlig unbekannt.
 
paperlessinbox@...

Da du dich ja anscheinend sehr gut auskennst, funktioniert das auch mit identischer Inbox aber E-Mail Sammler?
Beispielsweise, E-Mails an paperless@ ... .com sollen archiviert werden, alle anderen aber nicht - Obwohl alle in einer Inbox zusammen laufen?

Bzgl. Paperless: Bin auch schwer begeistert, hab mit Paperless-ng angefangen, das ist aber wohl eingeschlafen und hab dann einfach auch paper-ngx migriert.

  1. Dokumente in den Stapeleinzug stopfen
Mein Workflow ist quasi identisch, aber das funktioniert bei mir nicht. Ich scanne zusammenhängende Dokumente immer "einzeln". Ist dank Dokumentenscanner auch schnell erledigt, aber würde ich einen unsortierten Stapel Dokumente einfach in den Scanner stopfen bekommt Paperless das auch nicht hin. Insbesondere weil viele Briefe etc. ja auch mehrseitig sind.

Was ist noch empfehlen kann ist ein Paginier-Stempel, einfach auf alles fortlaufende Nummern stempeln. Dann findet man auch sehr schnell die Originale wieder falls mal gebraucht.
 

Anhänge

  • Bildschirm­foto 2023-01-09 um 22.56.57.png
    Bildschirm­foto 2023-01-09 um 22.56.57.png
    248,2 KB · Aufrufe: 91
Ich habe paperless-ngx auch gerade auf meiner Synology installiert und bin mehr als begeistert. Ich habe 15 Euro in die Hand genommen und mir eine fertige Konfiguration geholt! Top!

Gibt es eventuell eine Mac-App, oder ist man auf das Web-Interface beschränkt?
 
Ich habe paperless-ngx auch gerade auf meiner Synology installiert und bin mehr als begeistert. Ich habe 15 Euro in die Hand genommen und mir eine fertige Konfiguration geholt! Top!
Hi Fröschl,
wo gibt es denn eine fertige Konfiguration von paperless-ngx zu kaufen? Im Zweifel würde ich auch gleich ein Synology mit paperless-ngx nehmen.

Ich stecke in der Installation (auf einem Mac) nämlich leider fest. Falls jd hier Hilfe weiß, sehr gerne! Das "easy install docker skript" lief erstmal gut, doch dann kam folgender Fehler:

head: illegal option -- -
usage: head [-n lines | -c bytes] [file ...]

Anscheinend kann mein Terminal noch keine negativen Indizes verarbeiten. Abhilfe dazu konnte ich aber noch nicht finden.
 
Habe es eben auch auf meinem NAS installiert. Klappt super!
Wie bekomme ich denn Word- Dokumente da rein. Per default geht anscheinend nur PDF.
 
Habe es eben auch auf meinem NAS installiert. Klappt super!
Wie bekomme ich denn Word- Dokumente da rein. Per default geht anscheinend nur PDF.
in der docker-compose.yml muss am Ende der Datei tika und gotenberg als container angelegt werden:

Code:
gotenberg:
    container_name: paperless-gotenberg
    image: gotenberg/gotenberg:7
    restart: unless-stopped
    environment:
      CHROMIUM_DISABLE_ROUTES: 1
    networks:
      - internal

  tika:
    container_name: paperless-tika
    image: apache/tika:2.3.0
    restart: unless-stopped
    networks:
      - internal

Das reicht eigentlich schon, wenn man docker-compose verwendet. Ansonsten siehe https://docs.paperless-ngx.com/configuration/#optional-services
Paperless erzeugt dann aus den Office-Dokumenten PDFs zur Anzeige, behält aber auch die Orginale, die dann wieder heruntergelanden werden können.

BTW: Dass da docker-compose.yml Dateien verkauft werden finde ich schon ziemlich... sonderbar. Die ganzen Infos finden sich auch in der sehr guten Orginaldoku und Tutorials zur Einrichtung von Docker auf der Synology gibts en masse im Netz. Die aufgerufenen Preise in der genannten Webseite sind echt abenteuerlich. Ich hielte es für besser, sich einfach ein bisschen mit den frei verfügbaren Infos zu Docker und Paperless-ngx zu beschäftigen und das Geld an die Entwickler zu spenden...
 
Zuletzt bearbeitet:
Zurück
Oben Unten