Hallo,
ich habe einen gelieferten Text im XML-Format. Kommt aus einer öffentlichen Institution wie Amtsgericht oder Landgericht. Ist technisch grundsätzlich OK. Struktur stimmt und Textcodierung auch.
Wenn davon eine Druckdatei generiert wird, dann tauchen im Text an einigen Stellen merkwürdige Akzente auf, die da nicht hingehören. Das ist immer der gleiche Akzent. Das sind freistehende Punkte wie auf dem e mit Punkten bei Citroen. Das nennt sich wohl Trema. Die "freistehenden Punkte" sind im Text aber nicht freistehend, sondern verschachtelt mitten im Fließtext über anderen Buchstaben, z.B. ein d mit zwei Punkten drüber. An einer anderen Stelle (ein anderer XML-Eintrag) generiert die Punkte zwischen einer Wortkoppelung über einem i und Divis. Also ganz eigenartig. Solche Glyphen gibt es doch gar nicht.
Wenn ich mir den Rohtext mit einem Texteditor wie Notepad++ o.ä. ansehe, dann ist das OK. Kein Sonderzeichen oder leere Glyphe zu erkennen. Kann man eigentlich gut prüfen, wenn man so eine Textstelle markiert und in Notepad++ unten in der Fußzeile die Summe der markierten Buchstaben angezeigt werden. Auch mit unterschiedlichen Textcodierungen kommt da nix zum Vorschein. Wenn ich den fehlerhaften Textteil mit den Punkten aus dem Druck-PDF aus Acrobat mit dem Textwerkzeug extrahiere, dann ist da immer noch ein Leerzeichen enthalten. Aber wo kommt das her? Ein Leerzeichen müsste doch auf eine leere Glyphe hinweisen. Aber genau die kann ich im Texteditor nicht identifizieren.
Leider darf ich keinen Demotext zur Verfügung stellen. Aber kann sich das jemand vorstellen bzw. hat das schon mal jemand ähnlich gehabt?
Gruß