sed: Umlaute in Dateien ersetzen

sheep · 28.11.2006

Hallo

Ich möchte gerne mit sed (d.h. eigentlich ist es egal womit, aber dieser Befehl ist der einzige, den ich dafür gefunden habe) in vielen Dateien die Umlaute durch Unicode ersetzen. Nun habe ich das zunächst so probiert:

find . -name *.html -exec sed -f umlaute.txt {} \;

und in umlaute.txt steht:

s/ä/\ä/g
s/ü/\ü/g
s/ö/\ö/g
s/Ä/\Ä/g
s/Ü/\Ü/g
s/Ö/\Ö/g

Soweit funktioniert alles bestens. Nun soll jedoch der Inhalt der jeweiligen Datei sofort mit dem umlautefreien Inhalt ersetzt werden (hier wird einfach der neue Inhalt auf der Konsole ausgegeben) - und da ist das Problem: die Option "-i", die man normalerweise verwenden kann, funktioniert offenbar zusammen mit "-f" nicht. Auch kann ich nicht in umlaute.txt eine weitere Zeile "w {}" anhängen, da {} als Dateiname und nicht als Platzhalter interpretiert wird.

Ich habe es dann mit einer for-Schleife versucht:

for file in *.html
do
sed -f umlaute $file > tmp.$file
[ -s tmp.$file ] && mv tmp.$file $file
done

aber das ist leider nicht rekursiv, d.h. all die Unterverzeichnisse, in denen die vielen Dateien liegen, werden nicht durchgegangen.

Kann mir jemand einen Tipp geben? So schwierig kann es doch nicht sein, aber ich komm' echt nicht weiter...

tigion · 28.11.2006

Du könntest ja noch eine Prüfung einbauen, welche Prüft ob es sich um eine Datei oder einen ORdner handelt. Wenn es ein Ordner ist, entsprechend rekursive das Script dafür öffnen.

Edit: Paelmchen sein Lösung eliminiert das Problem der recursiven Ordner schon mit dem passenden find aufruf

... hab wieder zu kompliziert gedacht

Paelmchen · 28.11.2006

for file in `find . -name *.html`
do
...
done

try this ...

oneOeight · 28.11.2006

guck dir chgrep an...
damit hab ich mal in einem mysql dump die ganzen latin und utf-16 umlaute in utf-8 umlaute umgebaut...

ruerueka · 28.11.2006

Als Skript speichern:

Code:

find . -name "*.html" | perl -pi -e "s/ä/\&auml;/g"
find . -name "*.html" | perl -pi -e "s/ü/\&uuml;/g"
find . -name "*.html" | perl -pi -e "s/ö/\&ouml;/g"
find . -name "*.html" | perl -pi -e "s/Ä/\&Auml;/g"
find . -name "*.html" | perl -pi -e "s/Ü/\&Uuml;/g"
find . -name "*.html" | perl -pi -e "s/Ö/\&Ouml;/g"

Hab's nicht getestet, da gerade kein Mac zur Hand.
Perl muss natürlich installiert sein.

sheep · 28.11.2006

Das ging ja schnell, vielen Dank schon mal

.

Ich werde mir eure Vorschläge jetzt einen nach dem anderen genauer ansehen und hoffe, dass irgend etwas davon funktionieren wird

.

sheep · 28.11.2006

Hmm, das will leider alles nicht so recht klappen

. Meine Dateien scheinen entweder eine komische Zeichenkonvertierung zu haben, oder es liegt an meinem AJAX, mit dem ich die Dateien in eine Website einbinde.

Ich gebe das besser auf, bevor ich noch mehr Zeit verbrate und sehe mich nach einer anderen Möglichkeit um.

Danke jedenfalls

.

xlqr · 28.11.2006

hat jetzt zwar nix mit unix zu tun ...
ich verwende für solche aufgaben textwrangler - hat ein mächtiges, gut konfigurierbares *multi file search and replace* - lässt sich auch in diversen scriptsprachen scripten falls nötig.

sheep · 28.11.2006

Ich bin gerade selber fündig geworden:

http://main.linuxfocus.org/~guido/
oder direkt: http://main.linuxfocus.org/~guido/scripts/iso8859_htmltools-0.1.tar.gz

Geniales Script, ENDLICH

. Die Umlaute funktionieren nun überall (Windows IE etc.) tiptop.

Danke vielmals an alle Helfer

.

Edit: TextWrangler werde ich mir trotzdem runterladen, wenn es das kann, was es verspricht, höre ich sofort auf, mit Scripts an meinen Daten herumzupfuschen

.

maceis · 28.11.2006

Wesentlich einfacher wäre es vermutlich gewesen, den Webserver so zu konfigurieren, dass er den Clients das richtige Charset mitteilt

.

sheep · 28.11.2006

maceis schrieb:
Wesentlich einfacher wäre es vermutlich gewesen, den Webserver so zu konfigurieren, dass er den Clients das richtige Charset mitteilt .

Das ist schon richtig, aber das Ganze muss eben direkt von einer DVD laufen können und da sieht's mit Webservern etwas düster aus

(es gibt zwar solche Dinger, aber die ich bin jetzt gefunden habe, sind entweder sauteuer und / oder laufen nur auf Windows).

dpr · 29.11.2006

Paelmchen schrieb:
for file in `find . -name *.html`
do
...
done

Hat zwar mit dem Thema nichts zu tun, allerdings fliegen Dir solche Konstrukte auf jedem System, das Leerzeichen in Filenamen enthält (OS X ist ja ein typischer Vertreter), um die Ohren.

Korrekt wäre eher

Code:

IFS=$'\0'
find $WHERE ... -print0 | xargs -0 -n 1 sh -c '
process "$1"
' "$0"

sed: Umlaute in Dateien ersetzen

sheep

Aktives Mitglied

tigion

Aktives Mitglied

Paelmchen

Aktives Mitglied

oneOeight

unregistriert

ruerueka

Aktives Mitglied

sheep

Aktives Mitglied

sheep

Aktives Mitglied

xlqr

Aktives Mitglied

sheep

Aktives Mitglied

maceis

Aktives Mitglied

sheep

Aktives Mitglied

dpr

Aktives Mitglied