Cleaner Apps um Mac aufzuräumen

lisanet · 25.10.2021

mausfang schrieb:
Dann greift da doch keine Deduplikation? Oder doch? Ich weiß es nicht. Was meint ihr?

da greift keine Dedupliaction.

Cloning und Deduplication gehen Hand in Hand.

Kopierst du eine Datei (auf dem gleichen Datenträger) kommt Cloning zum Zug und legt lediglich einen weiteren Verweis als Verzeichniseintrag ein, der auf den identischen physichen Speicher zeigt. Vergleichbar mit Hardlinks.

Veränderst du nun eine der beiden Dateien, dann wird nur die Änderung gespeichert (besser gesagt, der Speicherblock des Mediums der die Änderung enthält) und belegt neuen Speicherplatz. Alle anderen Datenblöcke bleiben unverändert und sind somit Teil beider Dateien.

Löschen bringt also bei Cloning exakt gar nichts und bei Deduplication nur den geänderten Block, niemals die Größe der gesamten Datei.

mausfang · 25.10.2021

lisanet schrieb:
Cloning und Deduplication gehen Hand in Hand.

Ja, so hatte mich mir das auch geistig abgelegt.

Ich meine aber, dass es FS gibt, die das trotzdem gebacken bekommen, wenn die Daten nicht vom System selbst dupliziert wurden. Die schnallen quasi, wenn Datenblöcke redundant sind und setzen dann so eine Art Pointer. "Bilde ich mir jetzt zumindest ein, dass das so funktionieren würde."

dg2rbf · 25.10.2021

Hi,
@mausfang, Dein letzter Satz in #80 ist zutreffend.
Franz

hr47 · 25.10.2021

4 Seiten Diskussion und gegenseitige Beschimpfungen, aber nicht ein Tipp, wie man doppelte Dateien auf dem Mac auch OHNE Zusatzprogramm finden kann

Eine ganz einfache Möglichkeit besteht darin, einen intelligenten Ordner zu erzeugen, der den gesamten Mac (diesen Mac) als Quelle hat. Anschließend einen Filter für den Dateityp setzen, nach Namen sortieren lassen und den Ordner speichern.

Ist immer noch etwas manueller Aufwand, aber so kann ich die Duplikate selber markieren und löschen und weiß auch genau, was ich gemacht habe.
Automatisches Suchen und Löschen ist problematisch, weil 2 Dateien mit gleichem Namen nicht automatisch Dubletten sein müssen.

mausfang · 25.10.2021

Ja. Das kann man so machen. Praktikabel, wenn man nicht vorhersehen kann was doppelt ist?

Edit: Es soll Leute geben, die es nicht schaffen Ordnung zu halten ... :teeth:

V8-Driver · 25.10.2021

hr47 schrieb:
Automatisches Suchen und Löschen ist problematisch, weil 2 Dateien mit gleichem Namen nicht automatisch Dubletten sein müssen.

Gerade bei Fotos kann das gerne mal passieren.

MacKaz · 25.10.2021

hr47 schrieb:
Automatisches Suchen und Löschen ist problematisch, weil 2 Dateien mit gleichem Namen nicht automatisch Dubletten sein müssen.

Dafür gibt es Tools, die die Dateien binär bzw. anhand Prüfsummen abgleichen und die man bei der Suche sehr genau einstellen kann.
Ob CCleaner das macht, weiß ich nicht (vermute aber eher nicht).

mausfang · 25.10.2021

hr47 schrieb:
Automatisches Suchen und Löschen ist problematisch, weil 2 Dateien mit gleichem Namen nicht automatisch Dubletten sein müssen.

Genau darum ist ja auch ein Spezialprogramm den Bordmitteln vorzuziehen, wenn es so konfiguriert, dass es das über einen inhaltsbasierten Vergleich macht.

Edit: Oder genauso richtig: 2 Dateien mit unterschiedlichem Namen können trotzdem Dubletten sein.

RD11 · 25.10.2021

Zustände wie bei FB.
Der MainzerSven Hieronymus sagt am Ende seines Programms:
Weinen könnt ich, weinen…
Macht doch diesen unsäglichen Schlagabtausch endlich dicht!

hr47 · 25.10.2021

mausfang schrieb:
Genau darum ist ja auch ein Spezialprogramm den Bordmitteln vorzuziehen, wenn es so konfiguriert, dass es das über einen inhaltsbasierten Vergleich macht.

Edit: Oder genauso richtig: 2 Dateien mit unterschiedlichem Namen können trotzdem Dubletten sein.

MacKaz schrieb:
Dafür gibt es Tools, die die Dateien binär bzw. anhand Prüfsummen abgleichen und die man bei der Suche sehr genau einstellen kann.
Ob CCleaner das macht, weiß ich nicht (vermute aber eher nicht).

mausfang schrieb:
Genau darum ist ja auch ein Spezialprogramm den Bordmitteln vorzuziehen, wenn es so konfiguriert, dass es das über einen inhaltsbasierten Vergleich macht.

Edit: Oder genauso richtig: 2 Dateien mit unterschiedlichem Namen können trotzdem Dubletten sein.

Richtig - 2 gleichnamige Dateien können unterschiedlich sein. Dateien mit unterschiedlichem Namen können gleich sein. Das macht das Ganze ja auch so fehleranfällig.

Der MD5-Hash Code ist ein Unique identifizier und kann hier zuverlässig beide Fälle ermitteln und auseinanderhalten.
Einen solchen Vergleich bzw. eine entspr. Dateiliste lässt sich z.B. auch per Terminal erzeugen.

Allerdings ist hier das Problem, das Copy/Paste "herumgefummle" (ohne zu wissen, was man da eigentlich tut) mit dem Terminal ebenso zu bösen Überraschungen führen kann wie Third Party Apps...
Aus diesem Grund würde ich den meisten hier dann doch raten, eher ein Programm zur Hilfe zu nehmen, bevor man das Problem am Ende gar nicht lösen kann. Ein Freund solcher Apps bin ich aber trotzdem nicht, da man nie genau weiß, was dort tatsächlich gemacht wird.

Der beste Weg ist aus meiner Sicht schlicht, solche Probleme von vornherein zu vermeiden, indem man sich auf dem Mac einfach gut organisiert. Und eben auch kein "Korinthenkacker" ist, der absolut jede Dublette unbedingt "vernichten" will. So lange noch genug Speicherplatz zur Verfügung steht (d.h. etwa 20% der Festplatte), braucht man sich um solche Dinge meiner Meinung nach nicht zu kümmern. Geht der Speicherplatz aus, sollte man eher per Finder identifizieren, welche großen Dateien man auf dem Mac hat und ob man die auf der Systemplatte tatsächlich braucht.

mausfang · 25.10.2021

Bin halt eine Datenkrake und Chaot.

MacKaz · 25.10.2021

Ich gebe Dir absolut Recht, musste aber leider erleben, dass Dubletten nicht immer ganz zu vermeiden sind (Was nichts an Deinem richtigen Rat ändert, dass gute Organisation sinnvoll ist).
Bei mir suche ich Dubletten von Zeit zu Zeit mit TidyUp und je nach Situation wird dann je nach Wichtigkeit ggf. mit der Checksumme direkt gegengeprüft oder, wenn es um mehrere Dateien/Ordner geht, auch mit Beyond Compare. Das reduziert den zeitlichen Aufwand, dürfte aber ein hohes Maß an Sicherheit geben, dass da nichts schief läuft.
Aber wie Du auch richtig feststellst, es muss „im Verhältnis“ bleiben.

hr47 · 25.10.2021

MacKaz schrieb:
Ich gebe Dir absolut Recht, musste aber leider erleben, dass Dubletten nicht immer ganz zu vermeiden sind (Was nichts an Deinem richtigen Rat ändert, dass gute Organisation sinnvoll ist).
Bei mir suche ich Dubletten von Zeit zu Zeit mit TidyUp und je nach Situation wird dann je nach Wichtigkeit ggf. mit der Checksumme direkt gegengeprüft oder, wenn es um mehrere Dateien/Ordner geht, auch mit Beyond Compare. Das reduziert den zeitlichen Aufwand, dürfte aber ein hohes Maß an Sicherheit geben, dass da nichts schief läuft.
Aber wie Du auch richtig feststellst, es muss „im Verhältnis“ bleiben.

Nein, ganz vermeiden kann man sie nicht, wenn man nicht auf viele Komfort-Funktionen am Mac verzichten will.
Die Größenordnung lässt sich aber gut in Schach halten, auch wenn man keine Programme nutzt. Ein guter Nebeneffekt der Beseitigung mit Bordmtteln ist auch, das man so einiges über das OS lernt und dieses Wissen dann auch an anderen Stellen sehr nutzbringend einsetzen kann. Ich weiß, das viele hier dazu wenig Lust haben und sich diesen Stress / Zeitaufwand nicht antun wollen (was völlig OK ist, muss jeder für sich wissen / entscheiden), aber für mich war das immer der beste Weg.

dg2rbf · 25.10.2021

Hi,
Tja, viele Wege führen nach Rom

lisanet · 25.10.2021

Also hier mal eine Lösung doppelte Dateien zu finden, ganz ohne irgendwelche Cleaner-Tools oder sonstigem Unkraut, sondern nur mit Bordmitteln und natürlich nicht nach Dateiname, sondern nach Dateiinhalt

Code:

find . ! -empty -type f -exec md5sum {} + | sort | uniq -w32 -dD

zuerst werden alle nicht leeren Files im aktuellen Verzeichnis und Unterverzeichnisse mit find gefunden, dann darüber der md5 Hash je File berechnet und der Pfad ans Ergebnis angehängt. Anschließend wird die Liste sortiert und mit uniq nur unter Berücksichtigung der ersten 32 Zeichen (dem md5 Hash) die Dubletten angezeigt.

Gefunden hier: https://unix.stackexchange.com/questions/277697/whats-the-quickest-way-to-find-duplicated-files

Ich kann es erst heute abend am Mac nochmals testen, ob nicht eine Anpassung für macOS notwendig ist, da die macOS Kommandozeilen Befehle nicht immer identisch sind, mit den Linux Versionen. (ich glaube bei uniq ist da etwas anders)

Atad · 14.08.2022

@lisanet

Da hier nichts weiter steht, habe ich die folgende Frage:

Kann davon ausgegangen werden, dass der Code, wie er in #95 aufgeführt ist, auch für macOS richtig ist?

lisanet · 14.08.2022

Das ist jetzt 10 Monate her. Ich weiß nicht mehr ob ich es getestet habe, ob uniq identisch auf macOS ist.

Teste es doch einfach mal selbst. Die manpage von uniq gibt dir Hilfe dazu. Solltest du dich partout nicht damit auskennen und nicht wissen wovon ich rede, solltest du auch nicht unbedingt im Terminal arbeiten und Dinge nur blind abtippen (obwohl dieser Tipp hier nicht groß schief gehen kann)

Atad · 16.08.2022

@lisanet

Danke für deine Antwort.

Vor längerer Zeit hatte ich mir hier ein Lesezeichen gesetzt, dieses dann leider vergessen. Beim Aufräumen meiner Lesezeichen bin ich wieder hier gelandet. Mir ging es bei meiner Anfrage nun darum, dass die offene Frage einer eventuellen Anpassung des Codes, den Du hier freundlicher Weise eingestellt hast, noch beantwortet wird. Viele Mitlesende und insbesondere alle, die gerne möglichst nur mit Bordmitteln die verschiedensten Dinge erledigen möchten, wären sicherlich hoch erfreut. Ich selber benötige den Code nicht, würde mich jedoch auch freuen.

Ich selbst kenne mich mit der Arbeit mit Codes im Terminal oder Automator unterm Strich nicht aus. Wenn ich – mehr als sehr selten – dennoch einmal das Terminal oder Automator nutze, greife ich auf Codes zurück, die von Fachleuten wie Dir veröffentlicht wurden. Z. B. die Codes auf der Seite von Apple für das Erstellen eines startfähigen Installationsmediums, oder Codes von anderen, mit denen man per Tastenkombination ein Programm öffnen oder das interne Mikrofon aus- und einschalten kann. Sehr gut finde ich es, wenn beschrieben wird, was die einzelnen Befehle des Codes bewirken. Als Beispiel möchte ich hier den Passwort Generator nennen, den Du in deinem Blog veröffentlicht hast. So kann ich halbwegs nachvollziehen, wie das alles funktioniert. Verstehen kann ich es dadurch natürlich nur ansatzweise. Für mich bleibt es eine Fremdsprache, die ich nur rudimentär verstehe. Und da ich mir dessen bewusst bin, bin ich sehr vorsichtig mit der Anwendung von Codes. Daher werde ich den Code mit der offenen Frage in #95 auch nicht testen.

Gruß
Atad

picollo · 16.08.2022

Toller Tipp.
1. Bei macOS gibt es md5sum nicht. md5 ist dein Freund.
2. uniq in macOS kennt die Option -w nicht.
Leider habe ich die Syntax noch nicht drauf, es kommen nur blöde Ergebnisse zustande.

lisanet · 16.08.2022

... kann hier echt niemand anderes so eine eigentlich recht einfache Zeile an macOS anpassen? Was das Ganze tut, sthet doch sehr gut bewchrieben im verlinkten Artikel.

Also gut, hier die Anpassung für macOS, getestet auf Monterey:

Code:

find . ! -empty -type f -exec md5 {} + | sort | uniq -f3 -D

Edit:

Okay... der obige Befehl hat einen Haken.. er funktioniert nicht, wenn die Dateinamen Leerzeichen haben.

Dann wird das Ganze leider etwas komplexer, aber dennoch mit Bodrmitteln lösbar.

Die Lösung ist dann dafür, dass man erst alle Leerzeichen durch Unterstriche ersetzt (das sollte für das Erkennen von Doubletten ausreichend sein) und dann nur das Feld mit der Checksumme wieder mit Leerzeichen trennt. Wenn man dann noch sicherstellt, dass die Checksumme am Ende steht, funktioniert das mit dem -f Parameter bei uniq wieder. Und dieses Sicherstellen funktioniert, indem man md5 nur die Checksumme und den Dateipfad ausgeben lässt und mittels awk dieses asugabe "umdreht". In Stichworten also

- finde alle Dateien im aktuellen Verzeichnis und Unterverzeichnissen
- md5 und Pfad anzeigen
- alle Leerzeichen durch Unterstrich ersetzen
- md5 Checksumme mit Leerzeichen wieder abtrennen
- sortieren nach 1 Feld, also der md5 checksum
- Ausgabe umdrehen -> neu also: Pfad, dann md5 checksum
- nur die Dubletten anzeigen, die im 2. Feld gleich sind (eben der md5 checksum), da uniq nur Felder am Anfang überspringen kann

Somit also

Code:

find . ! -empty -type f -exec md5 -r {} + | tr " " "_" | sed -e 's/./ /33' | sort -k1,1 | awk '{print $2, $1;}' | uniq -f1 -D

Cleaner Apps um Mac aufzuräumen

lisanet

Aktives Mitglied

mausfang

Aktives Mitglied

dg2rbf

Aktives Mitglied

hr47

Aktives Mitglied

mausfang

Aktives Mitglied

V8-Driver

Aktives Mitglied

MacKaz

Aktives Mitglied

mausfang

Aktives Mitglied

RD11

Aktives Mitglied

hr47

Aktives Mitglied

mausfang

Aktives Mitglied

MacKaz

Aktives Mitglied

hr47

Aktives Mitglied

dg2rbf

Aktives Mitglied

lisanet

Aktives Mitglied

Atad

Aktives Mitglied

lisanet

Aktives Mitglied

Atad

Aktives Mitglied

picollo

Aktives Mitglied

lisanet

Aktives Mitglied