[GastForen Programme Print/Bildbearbeitung Adobe InDesign Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Print/Bildbearbeitung - Photos, Layout, Design
Themen
Beiträge
Moderatoren
Letzter Beitrag

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

rohrfrei
Beiträge gesamt: 4492

11. Nov 2013, 20:10
Beitrag # 1 von 6
Bewertung:
(2311 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

ich habe einen gelieferten Text im XML-Format. Kommt aus einer öffentlichen Institution wie Amtsgericht oder Landgericht. Ist technisch grundsätzlich OK. Struktur stimmt und Textcodierung auch.

Wenn davon eine Druckdatei generiert wird, dann tauchen im Text an einigen Stellen merkwürdige Akzente auf, die da nicht hingehören. Das ist immer der gleiche Akzent. Das sind freistehende Punkte wie auf dem e mit Punkten bei Citroen. Das nennt sich wohl Trema. Die "freistehenden Punkte" sind im Text aber nicht freistehend, sondern verschachtelt mitten im Fließtext über anderen Buchstaben, z.B. ein d mit zwei Punkten drüber. An einer anderen Stelle (ein anderer XML-Eintrag) generiert die Punkte zwischen einer Wortkoppelung über einem i und Divis. Also ganz eigenartig. Solche Glyphen gibt es doch gar nicht.

Wenn ich mir den Rohtext mit einem Texteditor wie Notepad++ o.ä. ansehe, dann ist das OK. Kein Sonderzeichen oder leere Glyphe zu erkennen. Kann man eigentlich gut prüfen, wenn man so eine Textstelle markiert und in Notepad++ unten in der Fußzeile die Summe der markierten Buchstaben angezeigt werden. Auch mit unterschiedlichen Textcodierungen kommt da nix zum Vorschein. Wenn ich den fehlerhaften Textteil mit den Punkten aus dem Druck-PDF aus Acrobat mit dem Textwerkzeug extrahiere, dann ist da immer noch ein Leerzeichen enthalten. Aber wo kommt das her? Ein Leerzeichen müsste doch auf eine leere Glyphe hinweisen. Aber genau die kann ich im Texteditor nicht identifizieren.

Leider darf ich keinen Demotext zur Verfügung stellen. Aber kann sich das jemand vorstellen bzw. hat das schon mal jemand ähnlich gehabt?

Gruß
X

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

olaflist
Beiträge gesamt: 1400

11. Nov 2013, 22:23
Beitrag # 2 von 6
Beitrag ID: #519589
Bewertung:
(2279 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Lade Dir mal UnicodeChecker runter und schau (und lass uns wissen), welchen Unicode-Codepoint das Zeichen hat, bzw. die Zeichen direkt davor und danach. Achtung: manche Zeichen haben keine Ausdehnung - geht man mit dem Text Cursor über sie hinweg, bewegt sich der textcursor nicht weiter.

Olaf


als Antwort auf: [#519587]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

Suzanne
Beiträge gesamt: 67

15. Nov 2013, 08:50
Beitrag # 3 von 6
Beitrag ID: #519752
Bewertung:
(2177 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Wenn ich dich richtig verstehe sind das sog. "Combining Diacritical Marks", mit denen manche OpenType-Schriften recht gut zurecht kommen. Sie belegen einen bestimmten Unicode-Block und können so gesucht und ersetzt werden.


als Antwort auf: [#519587]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

rohrfrei
Beiträge gesamt: 4492

25. Nov 2013, 15:09
Beitrag # 4 von 6
Beitrag ID: #520060
Bewertung:
(2090 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

sorry, dass ich mich erst jetzt melde.

Nach hinreichender Untersuchung des Quelltexts kann ich da keinen "Fehler" entdecken. Der aus Acrobat heraus kopierte Text ist ja nur das Ergebnis. Wenn ich mir den unter Win oder Mac ansehe, dann zeigen die Systemeigenen Textviewer die auch schon unterschiedlich an. Unter Win z.B. mit Leerraum - am Mac in Textedit ohen Leerraum aber in Textwrangler wieder mit Leerraum.

Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat. Schließlich ist es ja bereits der Text aus dem fehlerhaften PDF und die Glyphe selbst als Unicode ist gleich eines der ganz oberen, also auch kein "echtes" Zeichen. Wichtiger wäre eine Glyphe im Quelltext zu erkennen, aber das ist mir leider nicht möglich. Ich werde nochmal den Workflow und die Entstehung des PDFs näher analysieren müssen.

Gruß


als Antwort auf: [#519752]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

olaflist
Beiträge gesamt: 1400

25. Nov 2013, 16:03
Beitrag # 5 von 6
Beitrag ID: #520065
Bewertung:
(2070 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo rohrfrei,

Zitat Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat.


Wenn Du schon den Unicode Checker bemüht hast - welchen Codepoint hatte dieses Zeichen denn?

Olaf


als Antwort auf: [#520060]

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent

rohrfrei
Beiträge gesamt: 4492

25. Nov 2013, 20:06
Beitrag # 6 von 6
Beitrag ID: #520074
Bewertung:
(2016 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
"U+0001" in der Spalte HEX

Gruß


als Antwort auf: [#520065]
X