Dokumenten-Management mit Paperless-NGX

ruerueka · 17.09.2023

Beide nicht funktionierenden Dateien haben PDF Version 1.3, die anderen sind neuer. Vielleicht liegt es ja daran…

whoami · 17.09.2023

Möglich, allerdings: Die Datei "Rechnung-…" hatte auch Version 1.3
Résumé: Ist das pre-consume-script aus, wurden bisher alle Dateien anstandslos konsumiert. Mit aktivem Script gehen die Dateien nicht, bei denen qpdf Warnungen á la "Object has offset 0" ausspuckt. Das muss ja dann irgendetwas Strukturelles in den pdf-Dateien sein…
Nun wäre natürlich eine Lösung schön, weil ich schon gerne das Script nutzen würde. Ich halte es für unnötig bspw. bei eingescanten 22-Seitigen AGBs, welche dummerweise nur einseitig bedruckt sind, beim späteren aufrufen und lesen jede zweite Seite überspringen zu müssen. Abgesehen von dem damit erhöhtem Platzbedarf. Der Scanner (Lexmark MC2425adw) unterstützt leider beim Scannen auf SMB das automatische entfernen von leeren Seiten nicht. Deswegen ja auch der Versuch mit dem Script von GitHub.
:kopfkratz:

Was dieses bash(?)-scripting angeht bin ich leider völliger Leihe. Könnte man das nicht anpassen, dass bei solchen Warnungen zumindest das Script so übersprungen wird, dass der normale Consume-Vorgang einfach weiterläuft?
Bonusfrage: Muss man sich Sorgen machen, dass die MacOS-Interne Funktion zum pdf-export solche Fehler erzeugt (Object has Offset 0)?
Hat jemand einen link für einen guten Crashkurs für das Scripting?

Gruß
whoami

studibook · 17.09.2023

Ist das so ähnlich wie filee?
Kann jeder Scanner damit arbeiten? Wie würde der workflow ohne nas aussehen?

ruerueka · 19.09.2023

whoami schrieb:
Bonusfrage: Muss man sich Sorgen machen, dass die MacOS-Interne Funktion zum pdf-export solche Fehler erzeugt (Object has Offset 0)?

Habe mittlerweile weiter dazu gesucht - die beste Erläuterung fand ich hier
https://github.com/OpenPrinting/cups/issues/321

allerdings recht weit unten im Thread(die Problemeingrenzung dauerte etwas..):
also hier: https://github.com/OpenPrinting/cups/issues/321#issuecomment-1246741326

Zusammenfassung: dumm gelaufen
1. Apple baut Mist im PDF
2. qpdf (oder eine vonqpdf genutzte Komponente) interpretiert die diesbezügliche Warnung als Fehler und bricht fälschlicherweise ab

im vorletzten Post erklärt jemand, wie er es behoben hat...
https://github.com/OpenPrinting/cups/issues/321#issuecomment-1455095622

--> CUPs in Docker aufsetzen und fixen und die Dokumente da durchjagen...

whoami · 19.09.2023

Danke, in die Richtung hatte ich noch nichts gefunden. Nur auch englische Erläuterungen, das es solche Fehler geben kann, die aber je nach „pdf-Interpreter“ gar nicht unbedingt auffallen, da dann wohl einfach ignoriert wird.
Dummerweise hat offensichtlich nicht nur Apple dieses Problem (bei mir macos Monterey), meine Versicherung hat mir auch schon pdf-Dateien zugesendet, die solche Fehler aufweisen.
Und wie gesagt, ohne das Script, sprich ohne Verwendung von qpdf, nimmt Paperless die auch ohne zu meckern.

Da die Lösung dort mit dem Laden und Anpassen von Sourcecode zu tun hat, würde ich davon eher Abstand nehmen. Ich schaue eher mal, ob man das Script nicht mit einer Abfrage versehen kann, ob solche Fehler in der pdf zu finden sind und dann das Script übersprungen werden kann. Wenn ich das richtig sehe, muss das Script nur mit dem „exit status 0“ durchlaufen, damit der normale Consume-Vorgang weiter geht.

Gruß
whoami

whoami · 19.09.2023

studibook,
ich kenne Filee nicht. Paperless-NGX läuft als Serverdienst auf einem linux. Hier mehr Infos und eine eher schlecht laufende Demonstration: https://docs.paperless-ngx.com/
Irgendwo gibt es auch Informationen zu Scannern, allerdings werden die soweit ich weiß eh nicht direkt angesprochen, sondern Paperless überwacht einen Ordner und „konsumiert“ dort abgelegte Dokumente, vorwiegend pdf-Dateien. Wie diese dort hinkommen ist Paperless relativ egal.
Hier mal eine kurze Erläuterung auf Youtube: https://youtu.be/Xl0w_8zg0Mo?si=mcwuKjPphzlmbOTV

Oder hier: https://youtu.be/ycLwmM0UZ4Q?si=PO49GZaHabtgfpag

Gruß
whoami

nicoc83 · 26.10.2023

Moin an alle,
ich benutze Paperless leider noch nicht richtig sondern immer nur als Test und das ist schon verdammt gut. Ich habe die App Paperparrot auf dem iPhone und damit macht es auch nochmal richtig Spaß

Ich würde nun gerne so langsam meine ganzen Dokumente in Paperless ziehen allerdings habe ich mir über Jahre eine große Ordnerstruktur aufgebaut. Diese würde ich sehr gerne behalten. Nun habe ich auch schon gesehen das es den Import über SubDir as Tags gibt und das habe ich auch gleich aktiviert.
Wenn ich jetzt aber zum Test 3 Ordner und im letzten ist eine PDF Datei importiere, dann taucht die Datei zwar auf aber ohne Tags der 3 Ordner. Versucht habe ich das ganze unter MacOS (Safari) und auch unter Windows (Chrome).

Ich habe folgendes im Docker eingetragen :

PAPERLESS_CONSUMER_RECURSIVE: true
PAPERLESS_CONSUMER_SUBDIRS_AS_TAGS: true

Ich benutze eine Docker in Unraid und so sieht das ganze in der Log aus (als ob er das mit den Tags einfach ignoriert):

Code:

[2023-10-11 19:30:55,765] [INFO] [celery.worker.strategy] Task documents.tasks.consume_file[6b1a221f-0668-4425-b725-9753b3d7ef98] received
[2023-10-11 19:30:56,232] [INFO] [paperless.consumer] Consuming 2023-09-01_Ausgabe_M85570_Sammellieferant.pdf
[2023-10-11 19:31:06,146] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2023-10-11 19:31:06,147] [INFO] [ocrmypdf._sync] Postprocessing...
[2023-10-11 19:31:07,988] [INFO] [ocrmypdf._pipeline] Image optimization ratio: 1.00 savings: 0.4%
[2023-10-11 19:31:07,988] [INFO] [ocrmypdf._pipeline] Total file size ratio: 0.96 savings: -4.5%
[2023-10-11 19:31:08,002] [INFO] [ocrmypdf._sync] Output file is a PDF/A-2B (as expected)
[2023-10-11 19:31:11,646] [INFO] [paperless.consumer] Document 2023-09-01 2023-09-01_Ausgabe_M85570_Sammellieferant consumption finished

Ich würde mich riesig freuen wenn mir jemand einen Tipp geben kann ich komme hier leider echt nicht weiter
Gruß
Nico

whoami · 26.10.2023

Hallo nicoc83,
auf die Schnelle: Nach einer Änderung an .env und/oder .yml sollte der Container neu gestartet werden. Wurde das getan?

Gruß
whoami

nicoc83 · 26.10.2023

Hey whoami,
schon mehrmals und auch schon geupdated auch neu composed was Unraid nach der Änderung in der Config automatisch macht. Ich sehe auch im Log das diese beiden Zeilen verarbeitet werden. Fehler gibt es auch nicht in der Logdatei.
Ich sitze da auch mittlerweile schon mehrere Wochen dran und hab auch schon bei GitHub nachgefragt aber leider bekomme ich da keine Antwort.
Vielleicht hab ich nur irgendetwas kleines Übersehen

whoami · 26.10.2023

Ich selbst nutze diese Option nicht, kann also diesbezüglich nicht mit Wissen helfen. Ich mutmaße jetzt mal, dass man sich in Paperless selbst, also in der Weboberfläche, die Bereiche Tags und/oder Speicherpfade mal genauer anschauen sollte.
Gruß
whoami

nicoc83 · 26.10.2023

Mit den Speicherpfaden hab ich tatsächlich auch schon rumgespielt aber das ist auch wieder ein anderer Bereich wenn ich das richtig gelesen habe. Mir reichen die Tags die normalerweise automatisch erstellt werden mit der Ordnerstruktur die ich in das Fenster reinziehe.
Ich könnte die Tags auch selber anlegen aber ich will einfach nicht alles per Hand machen weil ich dann ewig am importieren bin

Vielleicht hat ja irgendjemand noch eine Idee

whoami · 26.10.2023

Mir ist gerade etwas anderes aufgefallen:

nicoc83 schrieb:
PAPERLESS_CONSUMER_RECURSIVE: true
PAPERLESS_CONSUMER_SUBDIRS_AS_TAGS: true

Anstatt Doppelpunkt mach da mal ein „ist gleich“-Zeichen ohne folgendem Leerzeichen.
Gruß
whoami

nicoc83 · 26.10.2023

So macht Unraid das daraus:
Hab auch zuerst gedacht das ich ein Leerzeichen zu viel drin habe aber wenn ich mir die anderen Variablen angucke sehe alle gleich aus. Denke das sollte dann so passen. Das ist die Ausgabe wenn ich eine Änderung am Docker vornehme

Bildschirmfoto 2023-10-26 um 23.37.00.png

nicoc83 · 03.11.2023

So, ein kleiner Bericht von mir. Wenn ich die Ordnerstruktur in den Consume Ordner kopiere funktioniert es auch. Bin irgendwie immer von Drag and Drop ausgegangen

Problem ist also gelöst

aggi68 · 06.11.2023

Hallo liebe Gemeinde. Bin mit meinem PiHole Projekt auf den Geschmack gekommen, kleinen Helfer in unsere Digitale Welt einzubauen. PiHole ist so eine geile Sache, ich möchte sie nicht mehr missen. War anfänglich sehr kompliziert, die ganze Sache zu installieren und zum Laufe zu bekommen, ist jetzt aber Routine.
Nun mache ich mich schon seit 2 Wochen an das papierlose Büro-Projekt ran. Erst mit Papermerge, was ich zum Laufen bekam, was aber irgendwie beschnitten war. Zumindest die Version, die ich drauf hatte. Nun versuche ich mich an Paperless NGX und habe es auch auf meinen Mac bekommen. Es läuft unter Docker auf meinem Mac, aber ich weiß nicht wirklich, wie und was ich da gemacht habe. Das Programm läuft ganz gut, aber ich kann bzw. ich weiß nicht, wie ich die Ordner finden und ansprechen kann, in denen die Dokumente gesammelt werden und in die ich was rein scanne, damit sie autom. verarbeitet werden.
Es existieren aber Ordner, nur wie komme ich da ran? Habe mal ein Screenshot gemacht aus dem Programm Visual Studio Code, wo ,man den Ordnerbaum sieht. Könnt ihr mir da helfen? Danke ...

Bildschirmfoto 2023-11-06 um 20.02.55.png

nicoc83 · 06.11.2023

Moin
Probiere mal etwas in den Consume Ordner zu schieben
Du hast aber auch irgendwo auf der Startseite einen link zum Adminpanel wo man noch ein bisschen was einstellen kann

Gruß
Nico

aggi68 · 06.11.2023

nicoc83 schrieb:
Moin
Probiere mal etwas in den Consume Ordner zu schieben
Du hast aber auch irgendwo auf der Startseite einen link zum Adminpanel wo man noch ein bisschen was einstellen kann

Gruß
Nico

Hallo Nico,

ich habe meine Dokumente alle über den markierten Bereich eingespielt. Wo kann ich denn Dateien aus meinem iPhone hin senden?
Extremen Newbie, brauch ein bisschen mehr Hilfe. Sorry ...

Bildschirmfoto 2023-11-06 um 20.31.45.png

whoami · 06.11.2023

Hallo aggi68,

das ist der Verzeichnisbaum im Docker-Container?
Grundsätzlich: In den Ordnern „archive“ und „originals“ lieber nicht händisch eingreifen. Das wird die Datenbank von Paperless höchstwahrscheinlich kaputt machen.
Wie sieht denn deine .yml und .env für den Container aus?
Normalerweise wird dort der „consume“-ordner auf einen existierenden Ordner ausserhalb des Containers gemappt. Alle PDFs, die dort abgelegt werden, werden automatisch von Paperless eingelesen.

Gruß
whoami

nicoc83 · 06.11.2023

Es gibt die App Paperparrot für iOS
Ist Mega

Hierfür brauchst du aber Zugriff von außen auf deinen Mac / Docker (oder die App geht nur in deinem lokalen LAN über die Ip Adresse von deinem Mac)
Aber das alles zu erklären sprengt den Rahmen
Google mal ein bisschen
Portfreigabe / NGinx / Mac usw

Du musst schauen wo du im Finder die Ordnerstruktur der Docker findest
Da muss dann auch irgendwo der Consume Ordner sein
Hab selber noch nie docker auf macOs installiert deshalb kann ich da schlecht helfen

aggi68 · 06.11.2023

whoami schrieb:
Hallo aggi68,

das ist der Verzeichnisbaum im Docker-Container?
Grundsätzlich: In den Ordnern „archive“ und „originals“ lieber nicht händisch eingreifen. Das wird die Datenbank von Paperless höchstwahrscheinlich kaputt machen.
Wie sieht denn deine .yml und .env für den Container aus?
Normalerweise wird dort der „consume“-ordner auf einen existierenden Ordner ausserhalb des Containers gemappt. Alle PDFs, die dort abgelegt werden, werden automatisch von Paperless eingelesen.

Gruß
whoami

Hallo whoami,

den Bezug, consume - Ordner, den suche ich gerade. Wo und wie finde ich den am Mac. Suche schon im Terminal, aber mein Halbwissen bringt mich einfach nicht weiter.

Danke ...

Dokumenten-Management mit Paperless-NGX

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Mitglied

Aktives Mitglied

Mitglied

Aktives Mitglied

Mitglied

Aktives Mitglied

Mitglied

Mitglied

Mitglied

Mitglied

Mitglied

Aktives Mitglied

Mitglied

Mitglied