Forenindex » PrePress allgemein » Typographie » Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

starspawn
Beiträge gesamt: 5

19. Feb 2020, 17:17
Bewertung:

gelesen: 212147

Beitrag als Lesezeichen
Hallo Zusammen,

ich bin über ein komischen Phänomen gestolpert. Könnt ihr mir sagen woran das liegt?

Ich kopiere einen polnischen Text aus einem PDF und füge ihn irgendwo ein (z.B. Textedit)
Einige Sonderzeichen, z.B. das a oder e mit Schlenker unten (wird hier im Forum nicht angezeigt) werden hierbei ersetzt z.B. durch das "normale" a oder e. Andere wie das durchgestrichene L bleiben erhalten. Wenn ich aber in Acrobat in die Textbearbeitung gehe und dann den Text kopiere lassen sich alle Sonderzeichen normal kopieren und einfügen.

Kann mir jemand sagen woran das liegt? Ggf. Vielleicht sogar einen brauchbaren Workaround? (Der Kunde hat nur den reader)

Ich arbeite auf einem Mac, unser Kunde arbeitet in Windows und hat das Problem auch.
(Ich habe nur versucht das ganze zu rekonstruieren). Das Phänomen tritt mit aktiviertem und deaktiviertem Font (UTC) auf.

Lieben Gruß und danke für eure Hilfe schon mal!
Florian

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

JohanneS.
Beiträge gesamt: 1065

19. Feb 2020, 18:10
Bewertung:

gelesen: 212125

Beitrag als Lesezeichen
Moin Florian,

ein wenig kann ich Dir erklären: Die beiden genannten Zeichen (a bzw. e mit Ogonek) sind eigene Zeichen und nicht aus dem jeweiligen Vokal und einem Akzent zusammengesetzt. Im PDF geht das, weil da die Schrift enthalten ist. Die Schrift des Zieldokuments hat sie wohl nicht.
L und l mit Schrägstrich sind Teil des üblichen Latin-Zeichensatzes, deswegen machen sie keine Probleme.
Was hilft? Die Schrift im Zieldokument muss die beiden Zeichen enthalten.

Grüße
Johannes

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

starspawn
Beiträge gesamt: 5

20. Feb 2020, 08:54
Bewertung:

gelesen: 212050

Beitrag als Lesezeichen
Hallo Johannes, danke, aber das erklärt leider nicht mein Problem. Wie gesagt: Wenn ich über die Textbearbeitungsfunktion in Acrobat den Text kopiere sind die Buchstaben mit Ogonek ja vorhanden. Das ist in meinem Fall wohl keine Frage des Zieldokuments.

Besten Gruß
Florian

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

bavella
Beiträge gesamt: 171

22. Mai 2020, 00:53
Bewertung:

gelesen: 205276

Beitrag als Lesezeichen
Wenn es noch interessiert:

In Notepad++ (unter Windows) kann man im Menüpunkt Kodierung auf UTF8 umschalten. Wenn man danach den kopierten Text einfügt, sollten die Sonderzeichen erhalten bleiben.
In MS-Word bleiben die Sonderzeichen auch erhalten, abhängig vom Font. So enthält z.B. die Arial als Opentype u.a. die osteuropäischen Sonderzeichen, ebenso wie einige Kauffonts, die "Professional" oder "East" statt "Standard" in der Fontbezeichnung führen.

Zitat Wenn ich über die Textbearbeitungsfunktion in Acrobat den Text kopiere sind die Buchstaben mit Ogonek ja vorhanden

Wie stellen Sie das fest? In dem Sie den Text im gleichen PDF wieder einsetzen? Das funktioniert deshalb, weil dann auf den eingebetteten Font im PDF zurückgegriffen wird.
Wenn Sie den Text aber außerhalb des PDFs in einer anderen Anwendung einsetzen, dann besteht ja keine Verbindung mehr zum eingebetteten Font im PDF und es wird auf Fonts zurückgegtriffen, die vom OS angeboten werden. Die enthalten dann eben nicht immer die erweiterten osteuropäischen Sonderzeichen.

MfG
Simon

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

Uwe Laubender
Beiträge gesamt: 5316

22. Mai 2020, 13:20
Bewertung:

gelesen: 205165

Beitrag als Lesezeichen
Hallo Florian,

könnte auch sein, dass im PDF das Zeichen nur als Position in der Liste der vorhandenen Glyphen definiert ist. Dann kannst Du immer ein falsches Ergebnis beim Einfügen aus der Zwischenablage bekommen.
*****
Mit herzlichem Gruß,
Uwe Laubender

Copy & Paste von Polnischen Texten aus PDFs -> Sonderzeichen gehen verloren

mk-will
Beiträge gesamt: 1255

22. Mai 2020, 14:02
Bewertung:

gelesen: 205156

Beitrag als Lesezeichen
Hallo, Florian,

auch wenn es schon ein paar Tage her ist.

Ein a mit Ogonek kann man auf zwei Arten in einer Schrift hinterlegen.

1. Es wird tatsächlich das "a mit Ogonek" als Glyphe vollständig gezeichnet und existiert damit tatsächlich in der Schrift.

2. An der Glyphenposition des "a mit Ogonek" wird die Information hinterlegt "nimm die Glyphe a und kombiniere sie mit der Glyphe Ogonek". Das Ogonek ist als eigenständige Glyphe in der Schrift hinterlegt.
Es gibt das "a mit Ogonek" also nur "virtuell".

In Fall 2 landet in der Zwischenablage kein a mit Ogonek, sondern die Info "nimm die Glyphe a und kombiniere sie mit der Glyphe Ogonek", mithin zwei Schrift-Positonsangaben.

Wenn Dein Zielprogramm eine solche Information zu einem zusammengesetzten Buchstaben nicht korrekt aus der Zwischenablage übernehmen kann, kann das passieren, was Du beschreibst: es kommt nur die erste Glyphe aus der Zwischenablage in Textedit an, das "a".

Gruß
Stephan