[Tiger] Spotlight durchsucht nicht alle PDFs (?)

cschirmbeck

cschirmbeck

Aktives Mitglied
Thread Starter
Dabei seit
07.02.2004
Beiträge
978
Reaktionspunkte
0
Hallo,

durchsucht Spotlight nur bestimmte PDF-Dokumente?
Ich habe ein relativ großes Archiv der französischen Tageszeitung "Le Monde" als PDFs vorliegen. Es wäre natürlich nun ungemein praktisch, wenn Spotlight in diesen PDFs, in allem darin enthaltenen Text, nach Begriffen suchen würde. Scheinbar ist das jedoch nicht der Fall - lese ich z.B. einen Artikel und gebe ein Schlüsselwort in Spotlight ein, welches in diesem Artikel vorkommt, so findet Spotlight das PDF nicht.

Gibt es eine Möglichkeit, Spotlight zum Durchsuchen dieser PDFs zu animieren? (Vielleicht müssen sie ein bestimmtes Dateiformat haben?)

An sonsten bin ich von Spotlight (und den weiteren Features) hellauf begeistert. Sie erleichtern den Workflow gewaltig ("wo war gerade noch einmal das aktuellste Logo vom Kunden xy? Mailanhang oder schon im Ordner?" -> Spotlight liefert blitzschnell das Ergebnis! :))
 
Spotlight liest nur die ersten 100kB ein und übernimmt das in den Index.
 
Eigentlich sollte Spotlight alle lokalen und auf gemounteten ( ausser
Netzwerk ) Laufwerken vorhandenen Daten indizieren. PDF ist PDF.
Vielleicht hilft folgendes: PDFs öffnen und einmal neu abspeichern.
 
@sgmelin
Danke, das wusste ich nicht!
Das hieße doch, dass ein Teil des Inhalts der ersten Seite sehr wahrscheinlich indiziert wird, oder?
 
HAL schrieb:
Vielleicht hilft folgendes: PDFs öffnen und einmal neu abspeichern.

Das probiere ich, sobald ich wieder an den entsprechenden Rechner komme, auf dem das Archiv gespeichert ist.

Aber noch eine Frage zur Beschränkung auf die ersten 100kb -- das hört sich ja erstmal reichlich wenig an, andererseits: so eine Le Monde Ausgabe hat vielleicht 2-3 MB, allerdings inklusive aller Bilder, Werbung, Grafiken usw. -- da müssten doch 100kb für den Text eigentlich reichen, oder? (Es sind 10-20 Seiten)…
 
Naja, ich finde 100kB schon viel. Klar, wenn man umfangreiche Dokumentationen oder so hat und die ersten Seiten enthalten nur Lizenzinformationen oder so einen Quatsch, dann hat man verloren. Aber ich will ja meine Platte nicht nur mit Datenbankindex zumüllen...
 
sgmelin schrieb:
Spotlight liest nur die ersten 100kB ein und übernimmt das in den Index.
grundlagenfrage - wieviele A4 seiten sind 100kb in plain- bzw. html-text? und wieviel im .pdf format?
habe endlos pdf´s quasi nur plain text (schreibmaschinenseiten).

gruß
w
 
Hmmm, schwer zu sagen. Die 100kB sind wohl doch nicht ganz richtig. Ich habe hier die Firefox Anzeige im PDF Format da, die hat 132 kB und Spotlight findet Namen in der letzten Zeile des Dokuments. Was aber auch sein kann, ist dass Spotlight bei PDFs den Header igoriert und wirklich nur die Nutzdaten analysiert. Hmmm. Bin leicht verwirrt. Fakt ist aber, Deine le Monde wird sicherlich nicht komplett indiziert.
 
Ohne das jetzt verifiziert zu haben, vermute ich das mit den 100 KB reiner Text gemeint ist. Insofern wird aus der Firefox-Anzeige auch Text der letzten Zeile gefunden, da die enthaltenen Graphiken das PDF-Dokumentaufblähen.
 
Ich habe PDF Anleitungen mit über eintausend Seiten und Spotlight findet gesuchte Begriffe binnen einer Sekunde auf der 950 sten Seite, das PDF ist 36 MB groß ;)
 
Roland O. schrieb:
Ich habe PDF Anleitungen mit über eintausend Seiten und Spotlight findet gesuchte Begriffe binnen einer Sekunde auf der 950 sten Seite, das PDF ist 36 MB groß ;)

Also doch keine Limitierung auf 100kb? :confused:
Gibt es diesbezüglich vielleicht irgendeine Information seitens Apple, bzw. woher kommt die Information, dass die Indizierung auf 100kb limitiert ist?
 
Also, ich habe gerade mal einen Test gemacht. Ich habe ein Worddokument mit Blindtext gefüllt (über 50 Seiten) und habe dann irgendwo in den Text, und vor allem ganz ans Ende individuelle Wörter eingefügt. Wenn ich das nun als Word Dokument abspeichere findet Spotlight tatsächlich nur Wörter am Anfang. Als PDF exportiert wurde aber alles gefunden. Also indiziert Spotlight "native" OS X Dokuemte wohl voll, aber andere, wie eben Word nur zum Teil (vermutlich hier die ersten 100kB). Das Word Dokument ist ca. 230kB gross, das PDF lockere 600 kB.
 
Ich habe gerade auch ein Versuch gestartet, in Pages 1000 Seiten mit Blindtext gefüllt und auf der letzten Seite individuelle Wörter eingefügt, das Dokument einmal im Pages Format gespeichert, Größe 148 KB und Spotlight findet nichts, exportiert als RFT-Dokument 4,7 MB Spotlight findet die Begriffe schlagartig und als PDF sind es 2,9 MB und wieder findet Spotlight alles.

Die PDF Anleitung mit den 36 MB hatte auch Bilder beinhaltet.
 
Zuletzt bearbeitet:
Die Regeln für das Indexieren werden vom jeweiligen Importer bestimmt. Daher gelten für PDFs andere Werte, als für M$-Word oder Plain-Text-Dateien.
 
._ut schrieb:
Die Regeln für das Indexieren werden vom jeweiligen Importer bestimmt. Daher gelten für PDFs andere Werte, als für M$-Word oder Plain-Text-Dateien.

Kann man diese Werte auch darlegen?
 
Und warum machst Du es dann nicht? Soll ja Leute geben, die es genau wissen wollen. ;)
 
Okay. Und wo kann man nachlesen, dass es verschiedene Werte gibt?
 
In der Developerdokumentation zum Erstellen von Importern. Die Werte ergeben sich aber vermutlich eher aus dem, was beim Importieren berücksichtigt wird und was nicht.
 
Zurück
Oben Unten