Wie text aus PDF rauskopieren und in pages mit korrektem Zeilenumbruch und Sonderzeichen einfügen?

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Hallo community,

Ich habe aus einer PDF Datei, Text in polnischer Sprache rauskopiert und in pages eingefügt. Was eingefügt wurde hatte mit dem original Text nichts gemeinsam, denn Zeilenumbrüche, sowie die polnischen Buchstaben waren völlig falsch dargestellt worden. Ich habe es mehrmals probiert, sowie open office zur rate gezogen - jedesmal dasselbe Problem. Unter Android klappt es problemlos... Weiss jmd. Rat?

Danke im voraus
 

walfreiheit

Aktives Mitglied
Registriert
06.06.2004
Beiträge
36.652
In den Systemeinstellungen unter "Sprache & Region" Polnisch hinzufügen?
Bildschirmfoto 2021-04-18 um 13.07.24.png
 

fa66

Aktives Mitglied
Registriert
16.04.2009
Beiträge
15.718
In den Systemeinstellungen unter "Sprache & Region" Polnisch hinzufügen?
Ich befürchte, dass das das Problem nicht löst.
Schließlich kann ich problemlos auch Polnisch schreiben, ohne dass die Bedienoberfläche des OS auf Polnisch steht.

Ein erster Gegenversuch wäre, nicht »einzufügen«, sondern ohne Formatierung einzufügen (Word: »Einfügen und an Formatierung anpassen«; Pages: »Einsetzen und Stil anpassen«; Writer: »Inhalte einfügen > Unformatierten Text«)

Das übernimmt die Formatvorlageneinstellungen des Ziels.
Es nimmt auch die Schriftart des Ziels. Standardschriften dürften keine Probleme mit polnischen Sonderzeichen haben.
Wir wissen aber nichts über die Schriftart, die im PDF verwendet wurde. Und auch nichts über die Kodierungstabelle. Wir wissen also auch nichts über das Mapping der Zeichen am Ziel.

Es löst auch nicht das Problem mit den Zeilenumbrüchen (in Dokument die Steuerzeichen mitanzeigen lassen). Diese müssen ggf. per Suchen/Ersetzen entfernt, durch Leerzeichen oder Absatzumbrüche ersetzt werden. U.U. in mehrfachen Durchgängen.

EDIERT
 

walfreiheit

Aktives Mitglied
Registriert
06.06.2004
Beiträge
36.652
Ich befürchte, dass das das Problem nicht löst.

Ein erster Gegenversuch wäre, nicht »einzufügen«, sondern ohne Formatierung einzufügen (Word: »Einfügen und an Formatierung anpassen«; Pages: »Einsetzen und Stil anpassen«; Writer: »Inhalte einfügen > Unformatierten Text«)

Das übernimmt die Formatvorlageneinstellungen des Ziels.
Es nimmt auch die Schriftart des Ziels. Standardschriften dürften keine Probleme mit polnischen Sonderzeichen haben.
Wir wissen aber nichts über die Schriftart, die im PDF verwendet wurde. Und auch nichts über die Kodierungstabelle. Wir wissen also auch nichts über das Mapping der Zeichen am Ziel.

Es löst auch nicht das Problem mit den Zeilenumbrüchen. Diese müssen ggf. per Suchen/Ersetzen entfernt, durch Leerzeichen oder Absatzumbrüche ersetzt werden. U.U. in mehrfachen Durchgängen.
Es war ja auch nur ein Ansatz. Das Problem sind oft auch miserabel erstellte PDFs, die gar keine richtigen Zeilenumbrüche etc. haben, sondern viele einzelne Objekte.
 

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Ich befürchte, dass das das Problem nicht löst.
Schließlich kann ich problemlos auch Polnisch schreiben, ohne dass die Bedienoberfläche des OS auf Polnisch steht.

Ein erster Gegenversuch wäre, nicht »einzufügen«, sondern ohne Formatierung einzufügen (Word: »Einfügen und an Formatierung anpassen«; Pages: »Einsetzen und Stil anpassen«; Writer: »Inhalte einfügen > Unformatierten Text«)

Das übernimmt die Formatvorlageneinstellungen des Ziels.
Es nimmt auch die Schriftart des Ziels. Standardschriften dürften keine Probleme mit polnischen Sonderzeichen haben.
Wir wissen aber nichts über die Schriftart, die im PDF verwendet wurde. Und auch nichts über die Kodierungstabelle. Wir wissen also auch nichts über das Mapping der Zeichen am Ziel.

Es löst auch nicht das Problem mit den Zeilenumbrüchen (in Dokument die Steuerzeichen mitanzeigen lassen). Diese müssen ggf. per Suchen/Ersetzen entfernt, durch Leerzeichen oder Absatzumbrüche ersetzt werden. U.U. in mehrfachen Durchgängen.

EDIERT
ich habs grade probiert mit Pages: »Einsetzen und Stil anpassen" - Problem bleibt...
 

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Habe grade aus demselben Artikel auf deutsch, denselben Absatz rauskopiert- ohne Probleme. War alles da wie es sein sollte. Bloss in polnisch klappts nicht.
 

fa66

Aktives Mitglied
Registriert
16.04.2009
Beiträge
15.718
Ist ermittelbar, welcher Font im PDF verwendet wurde?

Ist die PDF-Quelle öffentlich? – Also für Versuche hier.
 

Nutzloser

Mitglied
Registriert
25.11.2014
Beiträge
577
Textsniper behebt all deine Probleme .... ich nutze es für meine Russischen Texte kann man aus allen Vorlagen kopieren
 

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Ist ermittelbar, welcher Font im PDF verwendet wurde?

Ist die PDF-Quelle öffentlich? – Also für Versuche hier.
Hier die infos zur Codierungs - Software: iTextSharp™ 5.5.3 ©2000-2014 iText Group NV (AGPL-version); modified using iTextSharp™ 5.5.3 ©2000-2014 iText Group NV (AGPL-version) - Falls es hilft
 

Difool

Frontend Admin
Registriert
18.03.2004
Beiträge
14.395
Mag sein, dass es evtl. daran liegen könnte, dass die Schriften nicht – oder nicht richtig – in das PDF eingebettet wurden:

Hinweis:
Treten Probleme beim Kopieren und Einfügen von Text aus einer PDF-Datei auf, prüfen Sie zunächst, ob die betreffende Schrift eingebettet ist („Datei“ > „Eigenschaften“ > Registerkarte „Schrift“).
Versuchen Sie bei einer eingebetteten Schrift, die Einbettungsposition der Schrift zu ändern, anstatt diese mit der PostScript-Datei zu übermitteln.
Konvertieren Sie die PDF-Datei ohne die Einbettung dieser Schrift. Öffnen Sie das PDF anschließend in Acrobat und betten Sie die Schrift mit der Preflight-Korrektur ein.
Quelle: https://helpx.adobe.com/de/acrobat/using/pdf-fonts.html
 

MiketheBird

Aktives Mitglied
Registriert
07.02.2021
Beiträge
1.307
Was sagen die Kopfdaten aus dem PDF mit welcher Version bzw. Kompatibilität das PDF erstellt wurde? Apples paläo-PDF-Engine war schön ja schon öfter Thema und wenn man die Versionen mischt, bzw. neuere Formate in dem PDF sind als Apple kann, dann sind die Textteile teils doch so arg in Boxen gestückelt und auch noch mit unterschiedlichen Kodierungen versehen, dass Cut&Paste auf macOS Ebene nicht funktionieren kann.
 

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Was sagen die Kopfdaten aus dem PDF mit welcher Version bzw. Kompatibilität das PDF erstellt wurde? Apples paläo-PDF-Engine war schön ja schon öfter Thema und wenn man die Versionen mischt, bzw. neuere Formate in dem PDF sind als Apple kann, dann sind die Textteile teils doch so arg in Boxen gestückelt und auch noch mit unterschiedlichen Kodierungen versehen, dass Cut&Paste auf macOS Ebene nicht funktionieren kann.
dazu hab ich leider keine Daten
 

Nutzloser

Mitglied
Registriert
25.11.2014
Beiträge
577
hmmm, gibts ne kostenlose Lösung ? 10€ wollte ich jetzt nicht ausgeben...
Nein jedenfalls nicht in der Professionalität ich habe 100 Jahre nach so etwas gesucht, es sind auch keine 10 Euro sondern 6 Euro du musst von der Homepage nehmen und nicht aus dem App Store, Und das Programm ist es alle Mal wert!
 

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Nein jedenfalls nicht in der Professionalität ich habe 100 Jahre nach so etwas gesucht, es sind auch keine 10 Euro sondern 6 Euro du musst von der Homepage nehmen und nicht aus dem App Store, Und das Programm ist es alle Mal wert!
wie gesagt bei Android klappt es kostenlos und problemlos.
 

fa66

Aktives Mitglied
Registriert
16.04.2009
Beiträge
15.718
Als was erscheinen denn Ą ą, Ć ć, Ę ę, Ł ł, Ń ń, Ó ó, Ś ś, Ź ź und Ż ż (Ƶ ƶ) nach dem Einfügen auf dem Mac in Pages, Word, Writer et al.?
Und ist es systematisch immer gleich?
Und betrifft es alle PDFs, aus denen herauskopiert wurde?

Apples paläo-PDF-Engine war schön ja schon öfter Thema
Und hätte wieder wenig bis nichts mit dem Problem zu tun: Das PDF, aus dem herauskopiert wird, ist ja schon da, es muss nicht erst von oder unter macOS erstellt werden. Und meine Vorhersage: es ändert auch nichts, wenn das PDF zum Textherauskopieren statt in Vorschau, in AdobeReader geöffnet wurde.
 
Zuletzt bearbeitet:

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
Als was erscheinen denn Ą ą, Ć ć, Ę ę, Ł ł, Ó ó, Ś ś, Ź ź und Ż ż (Ƶ ƶ) nach dem Einfügen auf dem Mac in Pages, Word, Writer et al.?
Und ist es systematisch immer gleich?
Und betrifft es alle PDFs, aus denen herauskopiert wurde?


Und hätte wieder wenig bis nichts mit dem Problem zu tun: Das PDF, aus dem herauskopiert wird, ist ja schon da, es muss nicht erst von oder unter macOS erstellt werden. Und meine Vorhersage: es ändert auch nichts, wenn das PDF zum Textherauskopieren statt in Vorschau, in AdobeReader geöffnet wurde.
Code:
Chyba ka


˙


zdy zadaje sobie pytania dotyczce


˙z


ycia, cierpie


´


n,


´


smierci czy


przyszło


´


sci. Wa


˙


zne s te


˙z


dla nas codzienne sprawy, na przykład jak zarobi


´


c na utrzymanie albo jak mie ´


c szcz


´


sliw rodzin. Wiele os


´


ob znalazło


w nie tylko odpowiedzi na pytania


˙z


yciowe, ale te


˙z


praktyczne rady


przydatne na co dzie


´


n. Czy znasz kogo


´s



, komu poznanie  mogłoby


pom


´


oc?
 
Zuletzt bearbeitet von einem Moderator:

neoanderson

Mitglied
Thread Starter
Registriert
10.04.2010
Beiträge
83
So siehts aus. Egal ob pages, open office. egal mit was geöffnet wird, adobe, Vorschau. egal.
 
Oben