OCR in Pro X - Mehrsprachige PDFs

bikkuri · 30.08.2012

Hallo zusammen,

ich habe hier etwa 200 multilinguale PDFs, die ich durchsuchbar machen will. Jetzt bietet mir Acrobat nur eine 'primary language' an. D.h. ich muss bei vielen Dokumenten drei bis vier Durchlaeufe machen, bis alle Schriften erkannt werden.
Gibt es eine Funktion, mit der sich das mit einem Schwung erledigen laesst. Ich wuerde das gerne ueber Nacht laufen lassen, weill OCR doch ziemlich viel Zeit in Anspruch nimmt.

Danke!

bikkuri · 01.09.2012

Keiner eine Idee?

freucom · 06.09.2012

bikkuri schrieb:
Keiner eine Idee?

Moin auch,
nö, was mich aber auch nicht wundert. Die ABBY FineReader Software, die ich dafür im Einsatz hatte, verlangte "vor" dem OCR-Scan auch definitiv das Einstellen der jeweiligen Sprache. Ich könnte es dort nicht anders lösen, als mit einzelnen Scanfenstern die jeweilig gleichsprachigen Textabsätze zu markieren und im zweiten Schritt dann die anderssprachigen. Wenn mehr als 2 verschiedene Sprachen vorkommen, hast du definitiv die A...karte.

mfg
Günther

bikkuri · 09.09.2012

Ja, das musste ich auch feststellen. Wenn ich den ganzen Text markiert habe und darueber die Texterkennung laufen liess, erkannte Acrobat zwar die eine Sprache, aus den Zeichen der anderen machte er wilde Konstruktionen.
Schade, dass man die Abweichung nicht in engere Grenzen setzen kann und Acrobat diejenigen Zeichen, die er nicht eindeutig zuordnen kann, so belaesst wie sie sind.

OCR in Pro X - Mehrsprachige PDFs

bikkuri

Aktives Mitglied

bikkuri

Aktives Mitglied

freucom

Aktives Mitglied

bikkuri

Aktives Mitglied