Solide OCR Software für Mac OS

Eben... Einmalkauf, nix ABO. Auch eine OCR Funktion ist nicht zu finden. Ich nutze Readdle PDF Expert, daher hätte mich das auch gewundert.


Ich benutzte es auch, aber eben die 2er Version.

https://pdfexpert.com/de

Unteres Drittel, linke Seite.

1616405032426.png


In den Shop gehen, da ist erkennbar: Jährliche Abrechnung.


Sorry für OT, sollte jetzt geklärt sein.
 
Alles was Sie suchen ist wahrscheinlich OCR Designer. Sie können es über den Mac App Store installieren
 
  • Gefällt mir
Reaktionen: macUser567
Gibt es Erfahrungen von Usern, die beide Produkte, PDFify und PDFScanner nutzen?

Selber nutze ich PDFScanner für die seltenen Fälle, die es bei mir gibt. Die Erkennung würde ich selbst eher als "befriedigend" bezeichnen.
Zur Erstellung von PDFs aus Papierdokumenten ist es schnell und produziert kleine Dateien, die eine gute Darstellung aufweisen.
 
  • Gefällt mir
Reaktionen: SwissBigTwin
pdfsandwich: http://www.tobias-elze.de/pdfsandwich/

Ist ein Kommandozeilenprogramm, läuft per Homebrew auch auf dem Mac.

Bei mir läuft es in einer VM auf dem NAS und und macht einmal täglich per cronjob OCR mit allen PDFs, die vom Scanner (Multifunktionsdrucker) in ein bestimmtes Verzeichis geliefert werden, das Datum bildet den Dateinamen.
Folgendes Skript überprüft, ob der Dateiname "ocr" enthält. Wenn nicht, wird die Datei mit pdfsandwich behandelt, dieses hängt dann "ocr" an den Dateinamen der neu erzeugten Datei an. Dateien, die schon "ocr" enthalten, werden ignoriert bzw. nicht neu behandelt und die Orginaldatei nach dem OCR gelöscht.

Code:
#!/bin/bash

dir="/Pfad/zum/Scannerverzeichnis"

for file in ${dir}/*
do
    if [ -f $file ] && [ "$file" != *ocr* ]; then
        pdfsandwich -gray -nthreads 4 -lang deu -grayfilter "$file"
        rm "$file"
    fi
done

Überhaupt die Erkenntnis: Bei mir funktionert das papierlose Büro nur dann, wenn der Benutzungsaufwand extrem gering ist - ich will nicht bei jedem Fetzen Papier das reintrudelt jedesmal den Scanner einschalten, ein Programm starten und irgendwo drauf rumklicken. Ich hab' daher auf dem Multifunktionsdrucker mit dem Stapeleinzugs-Scanner eine Direktfunktionstaste damit belegt, die Scans direkt an besagtes Verzeichnis auf dem NAS zu schicken. Der Aktenvernichter steht gleich neben dem Scanner-MuFu...

Ach ja: Mir ist erst vor kurzem aufgefallen, daß die OCR-Dateien auf dem NAS von diesem (Synology) auch indiziert werden können:

https://www.macuser.de/threads/finder-suchfunktion-findet-datei-inhalte-auf-synology-nas.874873/

Damit kann man direkt im Finder (mit der Spotlight-Funktionalität) nach Dokumenteninhalten auf dem NAS suchen...
 
Das ist ziemlich interessant. Ich habe noch eine DS 214 in Keller stehen. Bin mir nur nicht sicher, ob die noch stark genug dafür ist. Welche VM hast Du benutzt und auf welchem NAS?
 
Das ist ziemlich interessant. Ich habe noch eine DS 214 in Keller stehen. Bin mir nur nicht sicher, ob die noch stark genug dafür ist. Welche VM hast Du benutzt und auf welchem NAS?

Das ist eine ganz normale kleine Debian-VM die im Synology Virtual Machine Manager angelegt ist:

https://www.synology.com/de-de/dsm/packages/Virtualization

Die Rechenleistung ist gar nicht so entscheidend: Das NAS ist eine Synology DS620slim, mit ihrem 2-Kern-Celeron ist die Kiste langsamer als der Raspi4, auf dem ich das vorher laufen hatte. Die VM sollte halt mindestens 512 MB RAM für sich zur Verfügung haben, haben, die Synology selbst braucht einen Intel-kompatiblen Prozessor. Mit der DS214 wird das wohl nicht gehen, die hat einen Marvell-Prozessor und insgesamt nur 512 MB.
 
Also ich habe mich jetzt für PDFScanner entschieden. (https://www.pdfscannerapp.com)
Ein ordentliches Preis-Leistungs Verhältnis und für meine Zwecke ok. Kann OCR leider nicht im Batch, aber der Entwickler hat mir eine Anleitung für einen Workaround mit dem Automator geschickt. (Nicht gerade mein Lieblingstool, dieser Automator, aber wenn's weiterhilft...)
Vielen Dank für Euren Input!
 
Du hast Dich zwar schon entschieden, aber ich werfe mal noch OCRKit in den Raum. Nutze ich seit Jahren, um von meinem HP Officejet an ein Netzlaufwerk gescannte PDF als Batch zu verarbeiten.
 
Du hast Dich zwar schon entschieden, aber ich werfe mal noch OCRKit in den Raum. Nutze ich seit Jahren, um von meinem HP Officejet an ein Netzlaufwerk gescannte PDF als Batch zu verarbeiten.
Funktioniert sehr gut und lässt sich als commando Zeile ansprechen:
Code:
for f in "$@"
do
    /Applications/OCRKit\ Pro.app/Contents/MacOS/OCRKit\ Pro --no-progress --format text --output "$f".txt "$f"
done
PS: Code in einen Service setzen mit Automator.
A 2021-07-08 um 21.47.59.JPG
 
  • Gefällt mir
Reaktionen: UnixCoon und tobo78
Wir digitalisieren in unserer Firma unentwegt Dokumente (wöchentlich hunderte Leitz-Ordner, z.B. Mieterakten einer Wohnungsverwaltung oder Konstruktionsunterlagen der DB) für Kunden. Als bisher beste kommerzielle Software habe ich (für mich) ReadIris 17 Pro entdeckt. Ist nicht ganz billig, hat aber eine sehr gute Erkennungsrate und kann Seiten z.B. auch gerade stellen (aus dem Dokumentenscanner, wir verwenden HP Scanjet 7000nx wackelt die Ausrichtung immer etwas, wenn man nicht ständig Stopper wegen zu eng eingestellter Führungsschienen haben möchte)
 
  • Gefällt mir
Reaktionen: Madcat
PDFZone klingt auch interessant. Damit kann man für typische Dokumente Zonen von Daten definieren und sie automatisiert auslesen und weiterverarbeiten, wie z.B. Datei umbenennen, CSV-Export etc. Man kann es auch via Shell ansprechen und somit in einen Workflow mit einbinden.

Ich hab bislang noch keine Zeit gehabt micht einzuarbeiten, aber ich fand die Idee so gut und habs einfach mal installiert, um es nicht zu vergessen. :)
 
  • Gefällt mir
Reaktionen: dg2rbf
Zurück
Oben Unten