Wie text aus PDF rauskopieren und in pages mit korrektem Zeilenumbruch und Sonderzeichen einfügen?

Und so, wie es aussieht, ist das aber kein spezielles Mac-Problem.

Hier geht es ganz offenbar um die Interpretation von COMBINING Zeichen. Die werden hier offenbar in die Einzelzeichen aufgelöst.

Mach mal von dieser Seite, d.h. isb. meiner #18, ein PDF – und kopiere dann mal aus dem neuen PDF den Text mit den Sonderzeichen woanders hinein. Wie sieht dann das Ergebnis aus?

PDF (macOS/Vorschau):
Vorschau.jpg

Word2011-14.7.7:
Word2011.jpg

Pages 10.1:
Pages10.1.jpg

Writer 7.1.2:
Writer7.1.2.jpg

Die jeweils obere Einfügung ist via Einfügen BefehlV, der untere via An Formatierung anpassen BefehlWahlUmschaltV ins Dokument übernommen.

Es erfolgt keine Zerlegung – es sind auch keine kombinierten, sondern, wie für UTF-8 empfohlen, die Ganzzeichen in der Quelle verwendet worden. Beim »gewöhnlichen« Einfügen zeigt sich aber das Problem mit etwaigen Schriftartenersetzungen, das beim Anpassen an die Formatierung der Zielstelle in der Zielanwendung umschifft wird (lediglich Pages hat bei der Ƶ-Glyphe (Schreibvariante zu Ż) ein Zuordnungsproblem).

Oder anders: hätte das Quellprogramm für deinen Ausgangstext, spätestens aber der PDF-Erzeuger, wie technisch empfohlen, die aus Buchstabe und Diakritikum zusammengesetzten Zeichen durch diejenigen am Stück ersetzt, wäre dieser Teil deines Problems keins mehr. Bleiben noch die Umbrüche (die ich aber an dem geposteten Beispiel nicht überblicke).
 
Zuletzt bearbeitet:
das hat problemlos geklappt
 

Anhänge

  • Bildschirmfoto 2021-04-18 um 21.29.33.png
    Bildschirmfoto 2021-04-18 um 21.29.33.png
    275,5 KB · Aufrufe: 56
Die jeweils obere Einfügung ist via Einfügen BefehlV, der untere via An Formatierung anpassen BefehlWahlUmschaltV ins Dokument übernommen.
Bei beiden gibts das Problem nach wie vor.
 
Und?
Ist, was du jetzt in #22 hineinkopiert hast, aus einem zuvor verfertigten PDF kopiert?
Erscheinen die Zeichen (und der sie umbettende Text) in – sagen wir – Pages korrekt?

Zumindest in #22 sind alle Sonderzeichen – wie erwartet – richtig wiedergegeben.

Falls ja, gibt es auch bei dir kein grundsätzliches Problem mit – hier – polnischen Sonderzeichen.
Probleme, die aus deiner Textquelle hereingetragen werden, wirst du nicht unmittelbar beheben können.

EDIT:
Bei beiden gibts das Problem nach wie vor.
Immerhin zeigt deine #22 das Problem nicht.
 
Und?
Ist, was du jetzt in #22 hineinkopiert hast, aus einem zuvor verfertigten PDF kopiert?
Erscheinen die Zeichen (und der sie umbettende Text) in – sagen wir – Pages korrekt?
leider nein
 
Bei dem, was du mir aufgetragen hast (eine pdf zu erstellen und unter pages reinzukopieren), da hat es geklappt. Aber aus dem Text, den ich brauche hat es nicht geklappt. Auch mit den shortcuts, klappts nicht.
 
Aber aus dem Text, den ich brauche hat es nicht geklappt.
Wie schon geschrieben: #21
Der »Fehler« (in Bezug auf die Buchstaben, und wenn man ihn so nennen mag) befindet sich schon in deiner Kopierquelle – und/oder bereits in der Datei-Quelle, aus der dein PDF als Kopierquelle stammt.

Wenn beispielsweise beim ż der übergesetzte Punkt vom z getrennt nacheinander erscheint (also ̇ [COMBINING DOT ABOVE – Unicode: U+0307/UTF-8: CC87] und z [LATIN SMALL LETTER Z – Unicode: U+007A/UTF-8: 7A]), hilft nur Handarbeit im Textprogramm: Suchenlassen der Zeichenfolge ̇z und Ersetzenlassen durch ż [LATIN SMALL LETTER Z WITH DOT ABOVE – Unicode: U+017C/UTF-8: C5BC] aus der Zeichenpalette.
Das artet notgedrungen in Arbeit aus. Und von den Umbrüchen in deinem Text war noch gar nicht die Rede.

Vielleicht ist dir auch schonmal früher auf Webseiten, in PDFs oder eben nach Kopieren/Einfügen aufgefallen, dass die Tremata auf ÄäÖöÜü merkwürdig nach links verschoben oder mit dem Grundbuchstaben irgendwie verschmiert daherkamen. Die Ursache dafür ist die gleiche wie jetzt mit den polnischen Sonderzeichen. Eine Gemengelage aus fehlender oder fehlerhafter Deklaration, plus dem Versuch der Zielanwendung, das Beste aus dem fehlerhaften Input zu machen. Das Beste ist aber manchmal nur Raten.

Vergiss auch nicht, dass PDF einmal als Datenendstation gedacht war. Da was wieder rauszukopieren, erweist sich erst in jüngerer Zeit als Bedürfnis.
 
  • Gefällt mir
Reaktionen: walfreiheit
ok soweit ich das verstehe, ist der Fehler also beim Urheber zu suchen. Es ist auch kein Mac-Fehler. Trotzdem frage ich mich wieso es denn bei Android problemlos klappt. Ich würde ja Android dafür benutzten, aber ich brauche diese polnischen Texte für eine live Vorführung über zoom, die ich natürlich nur am Rechner zeigen kann.
 
ok soweit ich das verstehe, ist der Fehler also beim Urheber zu suchen. Es ist auch kein Mac-Fehler. Trotzdem frage ich mich wieso es denn bei Android problemlos klappt. Ich würde ja Android dafür benutzten, aber ich brauche diese polnischen Texte für eine live Vorführung über zoom, die ich natürlich nur am Rechner zeigen kann.
Schmeiß die polnischen Texte doch mal testweise bei deepl.com rein und lasse sie dir einmal hin und wieder her übersetzen.
Und danach dann in Pages reinsetzen.
 
Wie schon gefragt: Ist das betreffende PDF öffentlich verfügbar? Falls ja, schreibe bitte den Link.
 
Und danach dann in Pages reinsetzen
Hin- und Herübersetzungen taugen immer zur Aufheiterung jeder Konferenz.

Hier geht’s aber wohl um den polnischen Text als polnischer Text.
 
Hin- und Herübersetzungen taugen immer zur Aufheiterung jeder Konferenz.

Hier geht’s aber wohl um den polnischen Text als polnischer Text.
Das hätte was: stimmt.
Ging mir auch eher um die Tauglichkeit der Formatierung und ob "deepl" da was retten könnte.
Bekomme auch hin und wieder mal PDFs aus denen ich die Texte c&p übertragen muss.
Da ist auch öfter mal, daß was du oben beschrieben hast mit den "Tremata auf ÄäÖöÜü merkwürdig nach links verschoben" –
das korrigiere ich dann, wenn es nicht zuviel ist, händisch mit "search & replace".
Man muss tatsächlich die vorhandenen Buchstaben einmal löschen und neu schreiben.

Ansonsten würde ich nach 2 bis 3 Fehl-Versuchen halt neue PDFs ordern – oder gar reinen Text.
Bekommt man die Gelegenheit vorab, dann gleich PDF und reine Textdateien liefern lassen.

PS: französische Texte juckel ich auch mal durch bsw. BBEdit und entferne jegliche Formatierungen.
 
darum geht es nicht. es geht nicht um ne Übersetzung.
Schon klar – es sollte ein Vorschlag zu dem Versuch des Formatierungsschaden-Behebens sein; und ob deepl das "weg-übersetzen" kann/könnte.
 
Zurück
Oben Unten