Hilfe - PDFs umwandeln

Folge Fehlermeldung erhalte ich beim InstallationsVERSUCH

Gibt es einen besonderen Grund, warum Dein Laufwerk als „Groß-/Kleinschreibung berücksichtigen“ formatiert ist?
Das verursacht oft Probleme mit verschiedener Software, einfaches macOS extended journaled OHNE Groß-/Kleinschreibung ist eigentlich sinnvoller.
 
  • Gefällt mir
Reaktionen: avalon und dg2rbf
Also ich setze gerne ocrmypdf (https://github.com/jbarlow83/OCRmyPDF) ein. Die Ergebnisse sind sehr gut und man kann es innerhalb eines Shell-Skript nutzen, um damit auch komplexere Aktionen auf einer Vielzahl an Dokumenten auszuführen. Sprich, wer nicht hunderte PDF-Dokumente einzeln in einem GUI-Programm öffnen, OCRen und danach speichern will, kann dazu auch ein einfaches shell-Skript und ocrmypdf nutzen und ist in einem Bruchteil der Zeit fertig.

Installieren kann man es (und alle dependencies) relativ einfach über homebrew.
 
  • Gefällt mir
Reaktionen: pinpit
Gibt es einen besonderen Grund, warum Dein Laufwerk als „Groß-/Kleinschreibung berücksichtigen“ formatiert ist?
Das verursacht oft Probleme mit verschiedener Software, einfaches macOS extended journaled OHNE Groß-/Kleinschreibung ist eigentlich sinnvoller.

Deshalb konnte er ja AC nicht installieren.

Ich würde auch eher das Format umstellen, die nächsten Schwierigkeiten sind vorprogrammiert.
Es nutzt wenig auf ein anderes Programm auszuweichen, denn die Ursachen müssen beseitigt werden.
 
  • Gefällt mir
Reaktionen: dg2rbf und Elebato
Da er sich selbst als „Unwissender“ bezeichnet, wird er wohl kaum in der Lage sein (oder es sich zumindest nicht zutrauen), die Formatierung der Festplatte oder SSD zu ändern. Er wird also wie bisher damit weitermachen, bis es nicht mehr anders geht oder er sich einen neuen Mac anschafft.
 
  • Gefällt mir
Reaktionen: dg2rbf
Das doofe ist, daß die OCR-Lösungen, die ich bisher so ausprobiert habe, immer noch zuviele Fehlerkennungen hatten. Zum einen ist es verwunderlich, daß selbst Wörter, die es über Wörterbücher hätte korregieren müssen, falsch waren. Woran sie sehr häufig scheitern, sind irgendwelche Vorgangsnummern, die aus Zahlen/Buchstaben bestehen. Die werden zu oft nicht richtig erkannt. Somit taugte es für mich kaum dies als digitales Briefearchiv.

Der zweite Punkt ist, daß es für OSX nachwievor kaum PDF-Reader gibt, die eine Fuzzy-Suche unterstützen. Mir ist bisher nur der grauenhafte Adobe Reader mit diesem Feature aufgefallen. Auch ein Problem war immer, daß die Reader allesamt keine umgebrochenen Wörter finden (beim Adobe Reader bin ich mir gerade nicht sicher). Witzigerweise kann das fast jeder Android-PDF-Reader.
 
Ich hatte vor einer Weile auch mal mit tesseract experimentiert, aber die Ergebnisse waren auch nicht so berauschend. Dazu kam, daß der Workflow umständlich war, da man damals nicht ein PDF reinstecken konnte und ein Text-PDF heraus bekam. Und langsam war es obendrein.

Ich hab bislang noch keine Zeit gehabt mal tesseract 4 mit LSTM (neuronales Netz) zu testen und vor allem einen automatisierbaren Workflow zu bauen.
 
Mit PDFScanner bin ich seit Jahren sehr zufrieden, das Ergebnis ist mehr als gut, wesentlich besser als jede IOS OCR App, welche ich getestet habe und dürfte für die meisten User mehr als ausreichend sein.
 
Mit PDFScanner bin ich seit Jahren sehr zufrieden, das Ergebnis ist mehr als gut, wesentlich besser als jede IOS OCR App, welche ich getestet habe und dürfte für die meisten User mehr als ausreichend sein.
Was bedeutet hier denn "ausreichend"? IMHO gibt es hier nur: ich finde Dinge oder ich finde sie nicht. Und bei allen meinen Tests (ich hab alles getestet was ich finden konnte) habe ich leider keine Lösung gefunden, bei der ich zuverlässig Dokumente mit Schlagwörtern auffinden konnte. Und streng genommen ist ein einziges nicht gefundenes Dokument min. unbefriedigend.

Das ist wie mit Spotlight, was für mich noch nie gut funktionierte, da es, reproduzierbar, Dokumente nicht gefunden hat, die es hätte finden müssen. Und wo die Suche innerhalb des jeweiligen Dokuments mit entsprechendem Suchbegriff gleich mehrere Treffer hatte. Das hat zur Folge, daß ich Spotlight nie benutze, da es mir zu unzuverlässig ist. Leider.

Und wie gesagt: mir fehlt es an PDF-Readern, die auch die ungenaue Suche beherrschen, um wenigstens Fehler wie 0 und O, 1 und I, l und I zu ignorieren und dennoch die richtigen Treffer zu landen. Und den Adobe Reader empfinde ich in vielerlei Hinsicht als echten Schmerz.
 
Naja, meine Aussage bzgl. der Auffindbarkeit von Dokumenten und der Fehler bei OCR ist durchaus objektiv. Subjektiv ist hier lediglich, wie sehr es einem etwas aus macht etwas zu finden. Und ich für mein Teil würde mich gerne auf mein digitales Büro 100% drauf verlassen können, daß Dokumente auffindbar sind, die ich unter einem Stichwort suche. Ansonsten müsste ich alles Taggen. Das hatte ich schon mit DavonThink versucht. Ich bin aber letztlich daran gescheitert es konsequent durchzuziehen. Und spätestens bei der Suche von Vorgangsnummern etc. wird es ärgerlich, wenn ich dann doch wieder Dokumente per Auge suchen muß. Dann kann ich mir den Spaß mit der OCR auch gleich sparen und die Scans in alter Manier verwalten.

Ich würde unsere unterschiedlichen Erfahrungen eher an der Erwartungshaltung festmachen und womöglich der Anwendung.

Ich hab übrigens bislang hochwertige ADF-Dokumentenscanner (Canon ScanFront 220P und zuvor Lexmark X4500) benutzt. An den Scans liegt es also eher nicht.
 
Zurück
Oben Unten