Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

[Gast] Foren Programme Print/Bildbearbeitung Adobe InDesign Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

Print/Bildbearbeitung - Photos, Layout, Design

Themen

Beiträge

Moderatoren

Letzter Beitrag

Adobe InDesign

21226

132007

boskop, Christoph Steffens, Gerald Singelmann, Kai Rübsamen, Martin Fischer

23. Apr 2024, 16:16

Uwe Laubender

rohrfrei

Beiträge gesamt: 4492

11. Nov 2013, 20:10
Beitrag # 1 von 6
Bewertung:
(2312 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

ich habe einen gelieferten Text im XML-Format. Kommt aus einer öffentlichen Institution wie Amtsgericht oder Landgericht. Ist technisch grundsätzlich OK. Struktur stimmt und Textcodierung auch.

Wenn davon eine Druckdatei generiert wird, dann tauchen im Text an einigen Stellen merkwürdige Akzente auf, die da nicht hingehören. Das ist immer der gleiche Akzent. Das sind freistehende Punkte wie auf dem e mit Punkten bei Citroen. Das nennt sich wohl Trema. Die "freistehenden Punkte" sind im Text aber nicht freistehend, sondern verschachtelt mitten im Fließtext über anderen Buchstaben, z.B. ein d mit zwei Punkten drüber. An einer anderen Stelle (ein anderer XML-Eintrag) generiert die Punkte zwischen einer Wortkoppelung über einem i und Divis. Also ganz eigenartig. Solche Glyphen gibt es doch gar nicht.

Wenn ich mir den Rohtext mit einem Texteditor wie Notepad++ o.ä. ansehe, dann ist das OK. Kein Sonderzeichen oder leere Glyphe zu erkennen. Kann man eigentlich gut prüfen, wenn man so eine Textstelle markiert und in Notepad++ unten in der Fußzeile die Summe der markierten Buchstaben angezeigt werden. Auch mit unterschiedlichen Textcodierungen kommt da nix zum Vorschein. Wenn ich den fehlerhaften Textteil mit den Punkten aus dem Druck-PDF aus Acrobat mit dem Textwerkzeug extrahiere, dann ist da immer noch ein Leerzeichen enthalten. Aber wo kommt das her? Ein Leerzeichen müsste doch auf eine leere Glyphe hinweisen. Aber genau die kann ich im Texteditor nicht identifizieren.

Leider darf ich keinen Demotext zur Verfügung stellen. Aber kann sich das jemand vorstellen bzw. hat das schon mal jemand ähnlich gehabt?

Gruß

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

olaflist

Beiträge gesamt: 1400

11. Nov 2013, 22:23
Beitrag # 2 von 6
Beitrag ID: #519589
Bewertung:
(2280 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Lade Dir mal UnicodeChecker runter und schau (und lass uns wissen), welchen Unicode-Codepoint das Zeichen hat, bzw. die Zeichen direkt davor und danach. Achtung: manche Zeichen haben keine Ausdehnung - geht man mit dem Text Cursor über sie hinweg, bewegt sich der textcursor nicht weiter.

Olaf

als Antwort auf: [#519587]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

Suzanne

Beiträge gesamt: 67

15. Nov 2013, 08:50
Beitrag # 3 von 6
Beitrag ID: #519752
Bewertung:
(2178 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Wenn ich dich richtig verstehe sind das sog. "Combining Diacritical Marks", mit denen manche OpenType-Schriften recht gut zurecht kommen. Sie belegen einen bestimmten Unicode-Block und können so gesucht und ersetzt werden.

als Antwort auf: [#519587]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

rohrfrei

Beiträge gesamt: 4492

25. Nov 2013, 15:09
Beitrag # 4 von 6
Beitrag ID: #520060
Bewertung:
(2091 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

sorry, dass ich mich erst jetzt melde.

Nach hinreichender Untersuchung des Quelltexts kann ich da keinen "Fehler" entdecken. Der aus Acrobat heraus kopierte Text ist ja nur das Ergebnis. Wenn ich mir den unter Win oder Mac ansehe, dann zeigen die Systemeigenen Textviewer die auch schon unterschiedlich an. Unter Win z.B. mit Leerraum - am Mac in Textedit ohen Leerraum aber in Textwrangler wieder mit Leerraum.

Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat. Schließlich ist es ja bereits der Text aus dem fehlerhaften PDF und die Glyphe selbst als Unicode ist gleich eines der ganz oberen, also auch kein "echtes" Zeichen. Wichtiger wäre eine Glyphe im Quelltext zu erkennen, aber das ist mir leider nicht möglich. Ich werde nochmal den Workflow und die Entstehung des PDFs näher analysieren müssen.

Gruß

als Antwort auf: [#519752]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

olaflist

Beiträge gesamt: 1400

25. Nov 2013, 16:03
Beitrag # 5 von 6
Beitrag ID: #520065
Bewertung:
(2071 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo rohrfrei,

Zitat Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat.

Wenn Du schon den Unicode Checker bemüht hast - welchen Codepoint hatte dieses Zeichen denn?

Olaf

als Antwort auf: [#520060]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

rohrfrei

Beiträge gesamt: 4492

25. Nov 2013, 20:06
Beitrag # 6 von 6
Beitrag ID: #520074
Bewertung:
(2017 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

"U+0001" in der Spalte HEX

Gruß

als Antwort auf: [#520065]

Aktuell

Diverses

axaio veröffentlicht neue MadeToTag-Version 2.9.126

| 12.09.2023

Weitere Events

Neuste Foreneinträge

Mit Preflight Registerfarbe ALL nach Grau konvertieren geht nicht

Absatzsetzer in CC24 ME lösen Probleme aus

Barrierefreie PDFs | Mögliche unangebrachte Verwendung des Strukturelements xy

Barrierefreiheit in indesign 2022: figure-Tags haben als Attributobjekt "block" statt "inline"?

Kontrollkästchen in PDF-Formular

Indesign Tabelle ausrichten

Quark Objekte lassen sich nicht neben Layout ziehen.

Mehrfach geschichtete und übereinander gelagerte PDFs bereinigen

InDesign 19.2 konvertiert 19.3-Dateien beim Öffnen ungefragt

Platzierte Vektorgrafiken skalieren

Weitere Stellenangebote