Hi,
@MacKatz
Auch das ist natürlich wichtig, herauszufinden wie oft sich der gleiche oder vergleichbare Inhalt hinter verschiedenen Namen verbirgt. Ich bin mir der Problematik bewusst. Ich habe das Ausmaß der Doppelung bis hin zur Verzehnfachung dadurch herausgefunden, dass ich mal die Dateien nach Größe ordnen ließ und mir gleich große Pakete mal konkret angeschaut habe... dabei ist mir klar geworden, dass der Vorgang maßgeblich durch verschachtelte Ordnersysteme entstanden ist und durch das Kopieren zwischen Volumes, was ja gerne zur Verdoppelung führt. Alles kein Problem, wenn man in Windows-Logik akzeptiert, dass alle Festplatten immer größeres Volumen bereitstellen... pack es auf die Externe und denk nicht drüber nach... Aber es ist ohnehin schon anstrengend, sich um gemalte Bilder von vor 10 Jahren zu kümmern, noch anstrengender ist dann das verbindliche digitalisierte Äquivalent Werkverzeichnis zu führen. Ich bin kein Digital-Nerd, ich wollte, dass mir das digitale eine hilfreiche Unterstützung ist. Mittlerweile kam der Umstieg auf den Mac und dann kamen noch andere Betätigungsfelder hinzu - Erstellen von Lehrmaterial - weswegen die konkrete Last der Dateien immens gestiegen ist.
Das beschreibt ziemlich gut meine Situation. Du glaubst übrigens gar nicht, wie man manche Programme, mit denen man zur Erstellung von Lehrmaterial, Publikationen etc. arbeitet, regelrecht verfluchen kann, weil sie (indirekt) für Duplikate sorgen.
Ein zusätzliches Problem ist die Übertragung auf andere Medien, die unter bestimmten Umständen ja auch für Erstellungsdaten im Moment des Kopierens sorgt. Finde ich für manche Dateien sehr ungünstig, nicht nur beim Aufräumen.
Kannst Du mir erklären, wie Du Dich an Prüfsummen orientiert hast? Was ist eine Prüfsumme? Welches Programm benötige ich dafür?
Ich bin noch nicht soweit, um über DevonThink nachzudenken, habe aber den Link angeschaut und werde zu einem späteren Zeitpunkt, wenn ich meine unten genannten Probleme geklärt habe nochmal auf Deinen Tipp zurückkommen. Du sagtest ja, es käme erst nach der Neuordnung in Betracht, richtig?
Eine Prüfsumme ist ein berechneter Wert, der vom Ausgangsmaterial abhängt.
Dabei führt grundsätzlich jede Änderung am Ausgangsmaterial auch zu einer Änderung der Prüfsumme (selbst ein Umbruch in einem Word-Dokument).
Es gibt Programme, die diese Prüfsummen berechnen und bei Bedarf auch zwischen mehreren Dateien vergleichen können.
Ich bin immer daran verzweifelt, vor lauter Dateien gar nicht mehr zu erkennen, was unterschiedliche Versionen sind und was eben nicht. Ich weiß nicht mehr, wie ich genau darauf kam, aber irgendwann habe ich die Duplikatsuche in Treesize (nur Windows) entdeckt und plötzlich machte es „Klick“, als ich die Spaltenauswahl sah
Das habe ich im Lauf der Zeit dann mit weiteren Tools ergänzt:
- Beyond Compare (macOS, Windows, Linux): Vergleicht Ordner und Dateien, diverse Suchkriterien, u.a. auch die Prüfsumme. Ziemlich praktisch, wenn man zum Beispiel 90% Übereinstimmung hat und möglichst schnell die eindeutig doppelten entfernen will.
- Checksum (macos Appstore, wird anscheinend nicht mehr gepflegt): Kann Dateien mit Prüfsummen vergleichen oder auch mit einer zweiten Datei.
- Checksum Folders (Siehe Checksum): Macht das gleiche mit Ordner, Prüfsummen können gesichert und später verglichen werden (zum Beispiel zur Erkennung von „Bitfraß“)
- Duplicate Manager Pro, DuplikitPro: Klassische Duplikatsuchen, die aber im Gegensatz zu den meisten anderen auch die Suche anhand der Prüfsumme erlauben. Bin ich erst vor kurzen drauf gestoßen, weil ich nach dem Erscheinen der M1-Macs noch mal intensiv nach Alternativen zu Treesize gesucht habe (das setze ich immer mal wieder ein, aber zumindest für diese Funktion brauche ich es nun wohl nicht mehr).
- Zum syncen von Dateien können Syncovery und/oder Chronosync wertvoll sein, besonders auch, wenn man zwischendurch Backups das Bearbeitungsstandes erzeugen möchte, ohne gleich wieder Chaos zu erzeugen.
- Für das gezielte Umbenennen samt Rückgängig machen, kann A Better File Rename wertvoll sein (Schade, wenn der Ordnervergleich nur daran scheitert, dass man mal ein anderes Namenssystem hatte und die Dateien deshalb nicht als Duplikate erkannt werden).
Aber hier immer schön vorsichtig sein, damit nicht noch mehr Chaos entsteht
- Ebenso kann für die Korrektur von Zeitabweichungen das Tool A Better Finder Attributes wertvoll sein
Mir ist übrigens klar, dass es für den ein oder anderen Vorgang günstigere Varianten gibt, die man tw. sowieso hat (Forklift wäre so ein Beispiel).
Aber für mich gilt hier, dass ich irgendwann erkannt habe, wie viel Zeit das ganze bindet und davon will ich weg.Man darf ja nicht vergessen, dass es je nach Datenbestand nichts ist, was man mal eben erledigt. Und alles, wo man lange dran sitzt und es nicht am gewünschten Tag fertig stellt, muss man ein paar Tage/Wochen später wieder aufnehmen.
Wenn es mir ein paar Sonnentage oder nette Verabredungen „rettet“, ist mir das auch Geld wert.
Die Toolliste ist also nur nett gemeint, man braucht das nicht alles und ich würde das auch ungern diskutieren (Anregungen sind natürlich immer nett). Ist halt „mein Weg“
Ich würde in der Tat erst aufräumen, denn Duplikate in Devonthink kannst Du eigentlich nur innerhalb DT beseitigen, ohne im ganz schlechten Fall die Datenbank zu riskieren. Machst Du das mit DT, musst Du (leider!) auf die Prüfsumme verzichten. Das kann ein Vorteil sein, wenn man zum Beispiel Texte mit nur kleinen Abweichungen hat (Versionen), aber nicht, wenn man schon am Wildwuchs erstickt.
Eagle Filer geht da anders vor, unter anderem deshalb habe ich ihn mir am Black Friday zugelegt, einfach um mir das mal anzuschauen (und vielleicht für Teilbereiche auch dauerhaft einzusetzen).
Vielleicht stellst Du ja bei der ganzen Aktion auch fest, dass Du sehr gut ohne weiteres Tool (DT oder EF) auskommst.
Hier nochmal aktualisiert der Grund meiner Anfrage:
Es geht um ein Logistik-Problem:
Ziel: Dateien zusammenführen, Duplikate finden (spezifiziert), Bestand reduzieren, mit wenig Verschachtelung übersichtlicher ordnen und dabei umbenennen.
Frage: Was spricht gegen diese Reihenfolge?
- Zusammenführen der Dateien auf ein Volume, um Bestand zu überblicken (.key,.pages,.docx,.pdf,.odt,.odp,.jpg,.tiff, ... aus iCloud Drive, mehreren Festplatten, USB-Sticks, Rechner - iCloud Drive oder eine externe Festplatte verwenden?)
- Duplikate finden und reduzieren (hier könnte die Maßgabe sein, die früheste Datei, die Größte Datei und die letzte Datei zu behalten, dann hätte man zumindest eine Reduktion von 10 auf 3, aber in welcher Reihenfolge geht man vor?)
- gleicher Inhalt differente Größe/Bearbeitungsstand (Masterdatei, Bearbeitung)
- gleicher Name differenter Inhalt/Größe/Bearbeitungstand (Fortsetzung, Korrekturfassung, niedrige Auflösung)
- Vorhandene verschachtelte Ordnerstruktur auflösen
- Neuordnung in Ordnerstruktur mit maximal 2 Ebenen:
- Schreibtisch/Privat/Themen xyz
- Schreibtisch/Recherche/Themen xyz
- Schreibtisch/Beruf/Themenxyz
- Umbenennen der bereits geordneten Dateien
Anregungen für besseres Vorgehen (in Schritten) erwünscht, vielleicht habe ich nicht alles bedacht?
Danke für die vielen Tipps!
Das hört sich nicht so verkehrt an und man merkt, dass Du Dich damit auseinander gesetzt hast.
Ich würde (aus dem Stehgreif geschrieben):
- Kaffeevorräte auffüllen
- alle Dateien zusammenführen (dorthin verschieben, keine neuen Duplikate anfertigen)
- um auf Nummer sicher zu gehen (abhängig davon, um welche Dateitypen es geht und wie sehr Berechtigungen reinhauen können) vielleicht vom Ausgangsort an die zentrale Stelle rüberkopieren und wenn das funktioniert hat an das Backup (zweiter zentraler Ort) verschieben. Als Zielort für die spätere Bereinigung könnte sich evtl. eine SSD anbieten.
- Wenn das alles getan ist, Zentralen Ort mit dem Backup vergleichen (z.B. mit Beyond Compare)
- Nach vorherigen Schritten einen großen Kaffee kochen, durchschnaufen und mit dem Schicksal hadern, weil man sich im Gegensatz zu vielen anderen Leuten Mühe macht, Dinge zu archivieren, die man vermutlich nie wieder braucht
- Nun würde ich pauschal nach Duplikaten suchen und dabei versuchen, bestimmte Schemen zu erkennen.
Viele Ordner wiederholen sich einfach und dummerweise machen Sie es dauerhaft unübersichtlich, weil alle Suchtreffer endlos werden.
- Die Ordner, die identisch wirken, würde ich mit Beyond Compare abgleichen. Sind sie es, gleich weg mit einem der beiden
- So kann man eine Art „Ping Pong“ zwischen Ordnern spielen. Zwischendurch, so nach paar Wochen, sollte man mal zum Arzt gehen, weil wenig Schlaf und viel Kaffee nicht unbedingt gesund sind.
- Ich würde immer mal wieder den aktuellen Stand sichern, dabei wichtig: Ein Tool (z.B. Chronosync), was am Backup-Ziel auch die Löschungen ausführt. Sonst geht der Sch... wieder von vorne los
- So würde ich den Datenbestand erst mal bereinigen
Danach kommt es darauf an, wie viele „fast“ gleiche Dateien da sind und wie man weiter vorgehen will. Ich habe mich bewusst für Devonthink entschieden, dann fallen viele Operationen auf Dateiebene weg (Tagging etc.)
Das können wir aber gern noch mal aufgreifen, nun muss ich mal kurz andere Dinge „angreifen“ (u.a. natürlich Kaffee).
Mir ist übrigens klar, dass man viele der Vorgänge auch anders gestalten kann, aber meine Beweggründe für das eine oder andere Vorgehen sind tw. so speziell, dass ich nicht alles aufführen kann. Abe rich würde mich freuen, hier auch Erfahrungen zu lesen, von denen ich ggf. profitieren kann.