Sammelthread DEVONthink

.Mac.

Aktives Mitglied
Thread Starter
Dabei seit
17.12.2007
Beiträge
1.386
Reaktionspunkte
87
Guten Abend MU,

nutze derzeit die Demo Version des o.g. Programms.

Da die Hilfeseite in deutscher Sprache dazu sehr wenig ausspucken und die Software so umfangreich ist, möchte ich hier einen Sammelthread mit Fragen und Antworten starten.

Für die Unwissenden, hier ein Link zum Programm. Klick

Frage 1: Zum scannen von Dokumenten nutze ich derzeit ein All in One Gerät von HP. Wie läuft das da mit der Texterkennung.
Also der Scan läuft mit dem HP eigenen Programm. Dann gehe ich auf Drucken und schicke die Datei an Devonthink. Dort wird es mir auch im Eingangsordner gelistet. Die Texterkennung scheint er jedoch nicht automatisch durchzuführen. Ist das so richtig ?
 
Jein...
Habe selbst Scan Snap full duplex Dokumentenscanner und Devonthink Pro Office.
Ich scanne ein Dokument mit der dem Scanner beiliegenden Abbyy Software ein und es wird automatisch in einen von mir vorher definierten Ordner gespeichert. Auf diesen Ordner habe ich ein von Devonthink veröffentlichtes Script als Ordneraktion liegen. Dieses Script (Ordneraktion) öffnet bei Eingang einer pdf Datei automatisch Devonthink Pro führt OCR durch und legt das Dokument bei Devonthink in den Eingang. Das Original gescannte Objekt im Ordner wird automatisch gelöscht.
Alternativ bei Besitz von Adobe Acrobat kann man den Ordner in dem die gescannten Dokumente landen auch mit Hazel überwachen lassen und ein Script starten lassen welches Adobe startet, Dokument OCR`t und an Devonthink übergibt. Entsprechende Scripte lassen sich im Netz finden. Hazel muß man kaufen...
Bei Besitzt der Adobe Software ist es eine Glaubensfrage ob man den OCR von Adobe oder der in Devonthink integrierten Abbyy engine machen lässt.
Funktioniert beides sehr gut....
 
  • Gefällt mir
Reaktionen: .Mac.
Ok. Danke an dich.
Gibt es denn die Möglichkeit, in meinem Fall OCR wenigstens manuell bzw. per Skript auszuführen ?
 
Ja, natürlich...
Bei Devonthink Pro Office ist die Abbyy OCR Engine im Preis mit dabei. Der Download muß nur manuell bestätigt werden. Devonthink fragt bei der Installation ob man Abbyy gleich mit runterladen möchte. Die OCR Engine kann aber jeder Zeit später nachinstalliert werden. Abbyy ist jedoch kein eigenständiges Programm sondern integriert sich nahtlos in Devonthink. Auch das benötigte Ordnerüberwachungs und OCR Script wird ohne Zusatzkosten von Devonthink mitgeliefert.
WICHTIG: Das alles ist nur bei der Pro Office Version von Devonthink mit dabei.
Der Weg über Hazel und Adobe ist nur als Beispiel gedacht wie es auch noch geht. Eben für Nutzer die Adobe besitzen und damit gerne weiterarbeiten möchten.
 
  • Gefällt mir
Reaktionen: Intunine
Adobe habe ich nicht und möchte ich auch nicht nutzen :)

Das Zusatztool habe ich geladen. Mich interessiert, wie ich OCR jetzt starten kann? Sehe die Einstellung dazu einfach nicht.
 
Rechtsklick auf das PDF in DT und dann dort als durchsuchbares Dokument (oder so ähnlich) konvertieren...
 
  • Gefällt mir
Reaktionen: .Mac.
Ohh, Danke für den Hazel-Tipp, aber BTT:

Grundsätzlich erschlägt DT einen mit seinen Funktionen, deswegen hatte ich mir seinerzeit auch dieses Buch "Getting Started With DT" gekauft. Es ist wirklich nur für den Einstieg, nicht für Pros, aber es hat einige Sachen recht gut erklärt. Schau es Dir einfach mal an.
Gruss
I
 
Kleiner Tip am Rande.
Nach einigen Try and Error Versuchen mit der Abbyy engine bekomme ich beim OCR die besten Ergebnisse mit der Auflösung 300 ppi bei Qualität 75%.
Scheint ein vernünftiger Kompromiss zwischen daraus resultierender Dateigröße und Qualität zu sein.
 
also kann man diesen ocr scan auch mit bereits existierenden pdfs durchführen?
 
Ja, kann man.
In den Einstellungen von Devonthink einfach die Option aktivieren das das Originaldokument in den Papierkorb verschoben wird. Somit bleibt nach OCR nur das überprüfte Dokument über.
Wie gesagt ich mache das mit einer Ordneraktion und dem Devonthinkeigenem Script. Hat den Vorteil, das alles was ich OCR möchte einfach in diesen Ordner per drag and drop verschoben wird und der Rest automatisch geht..
 
ich habe gerade die konvertierung mit dem ocr tool ausprobiert.

ausgang war eine 5 seitige pdf mit zeielnumbrüche also sah gut aus.

nach der Konvertierung habe ich eigentlich datenmüll den ich durchsuchen kann :)

also ich findst bis jetzt nicht so prickelnd, es sei denn ich habe was falsch gemacht, aber mehr als die datei anklicken und auf datei konvertieren in durchsuchbares pdf macht ihr auch nicht oder?
 
Hmmm.
Ich habe gut und gerne 200 PDF Dokumente OCR lassen. Ohne die geringsten Probleme. Alle Dokumente sauber lesbar und durchsuchbar. Egal ob mit Spotlight, Vorschau oder Adobe.
Nicht ein Dokument Datenmüll.
Es gibt User die haben eine Datenbank von mehreren Tausend Dokumenten und auch dort funktioniert alles bestens.
Mit Verlaub würde ich behaupten, das in diesem Fall das Problem "vor" dem Rechner sitzt und nicht bei der Software zu suchen wäre.
Eine Ferndiagnose zu stellen ist in diesem Fall sehr schwer.
Am besten alles noch mal deinstallieren und neu installieren.
Devonthink hat ein sehr großes und kompetentes Forum.
Nachdem man die Bedienungsanleitung konsultiert hat und es immer noch nicht funktioniert wird einem dort bestimmt schnell und kompetent geholfen.
 
  • Gefällt mir
Reaktionen: mausfang
Habt ihr einen Tipp bzw. Anhaltspunkt für mich wie lange es dauern würde eine 1300 Seiten pdf mit OCR konvertieren zu lassen?
 
@Gandalf12: Genau diese Script hätte ich auch gerne. Wie sieht das aus, oder kannst du mir das per PM senden?
Weiter habe ich einen HP all in One Farblaser, kann abe nicht direkt aus Devonthink Scannen, muss es also über das HP Tool machen. Gibt es da ne Lösung?
Danke und Gruss
alain
 
Den optimalen Work flow habe ich mit DT noch nicht gefunden.

Bin daher für Anregungen dankbar.

Speziell in Bezug auf OCR. Wie könnte man sowas automatisieren ? Bislang scanne ich ein Blatt und muss es manuell in ein durchsuchbares PDF konvertieren.
 
Workflow: Ordner erstellen. Z.B. PDF to OCR
Rechte Maustaste auf diesen Ordner. Ordneraktion erstellen wählen. Devonthink Skript OCR and Delete auswählen.
Im Scan Programm den Zielordner der gescannten Datein auf diesen Ordner legen.
Dokument scannen...erstelltes PDF wird im Ordner PDF to OCR gespeichert....Ordneraktion öffnet automatisch Devonthink welches automatisch einen OCR durchführt...Nach Abschluss wird das OCR´te Dokument im Eingang von Devonthink abgelegt...das Original Dokument im Ordner PDF to OCR gelöscht...
Es gibt auch noch andere Folder Scripte... Diese liegen im Ordenr.../Users/Library/Scripts/Folder Action Scripts
Aber hier nochmal:


-- DEVONthink - Import, OCR & Delete.applescript
-- Created by Christian Grunenberg on Fri Jun 18 2010.
-- Copyright (c) 2010. All rights reserved.

on adding folder items to this_folder after receiving added_items
try
if (count of added_items) is greater than 0 then
tell application id "com.devon-technologies.thinkpro2" to launch
repeat with theItem in added_items
try
set thePath to theItem as text
if thePath does not end with ".download:" then
tell application id "com.devon-technologies.thinkpro2"
set theRecord to ocr file thePath to incoming group
if exists theRecord then tell application "Finder" to delete theItem
end tell
end if
end try
end repeat
end if
end try
end adding folder items to


Im Unterforum für den Automator gibt es auch Scripte die aus einem Pages oder Word Dokument automatisch ein PDF erstellen. Daraus ein Droplet erstellen...
Workflow dort....
Dokument auf Droplet ziehen...Es wird automatisch ein PDF von diesem Dokument erstellt und im Ordner PDF to OCR abgespeichert...Devonthink startet...führt automatisch ein OCR durch...legt OCR´t Dokument im Eingang ab...löscht Original nicht OCR Dokument...Viola habe dann automatisch ohne eigenes zutun ein Original Pages oder Word Dokument und ein OCR´t PDF Dokument..
 
  • Gefällt mir
Reaktionen: mausfang, Andy.321, Winter und eine weitere Person
Nutzt ihr eigentlich mehrere Datenbanken ?

Ich dachte mir, ich erstelle mehrere (z.B. Privat, Geschäftlich etc.)
Was mich jedoch daran stört: Wenn ich dann oben rechts im Suchfeld nach einem Dokument suche, dann muss ich mich auch links in der entsprechenden Datenbank sein.
Sonst findet er das Dokument nicht.

Ist das bei euch auch so ? Kann man irgendwie Datenbank Übergeordnet suchen ?
 
Habt ihr einen Tipp bzw. Anhaltspunkt für mich wie lange es dauern würde eine 1300 Seiten pdf mit OCR konvertieren zu lassen?
Schätze so ... zwischen 3 und 5 Stunden. Lass den Job über Nacht laufen. Abby von DT ist nicht die Schnellste.:D
 
Zurück
Oben Unten