hilfdirselbst.ch
Facebook Twitter gamper-media
rohrfrei S
Beiträge: 4323
11. Nov 2013, 20:10
Beitrag #1 von 6
Bewertung:
(1855 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


Hallo,

ich habe einen gelieferten Text im XML-Format. Kommt aus einer öffentlichen Institution wie Amtsgericht oder Landgericht. Ist technisch grundsätzlich OK. Struktur stimmt und Textcodierung auch.

Wenn davon eine Druckdatei generiert wird, dann tauchen im Text an einigen Stellen merkwürdige Akzente auf, die da nicht hingehören. Das ist immer der gleiche Akzent. Das sind freistehende Punkte wie auf dem e mit Punkten bei Citroen. Das nennt sich wohl Trema. Die "freistehenden Punkte" sind im Text aber nicht freistehend, sondern verschachtelt mitten im Fließtext über anderen Buchstaben, z.B. ein d mit zwei Punkten drüber. An einer anderen Stelle (ein anderer XML-Eintrag) generiert die Punkte zwischen einer Wortkoppelung über einem i und Divis. Also ganz eigenartig. Solche Glyphen gibt es doch gar nicht.

Wenn ich mir den Rohtext mit einem Texteditor wie Notepad++ o.ä. ansehe, dann ist das OK. Kein Sonderzeichen oder leere Glyphe zu erkennen. Kann man eigentlich gut prüfen, wenn man so eine Textstelle markiert und in Notepad++ unten in der Fußzeile die Summe der markierten Buchstaben angezeigt werden. Auch mit unterschiedlichen Textcodierungen kommt da nix zum Vorschein. Wenn ich den fehlerhaften Textteil mit den Punkten aus dem Druck-PDF aus Acrobat mit dem Textwerkzeug extrahiere, dann ist da immer noch ein Leerzeichen enthalten. Aber wo kommt das her? Ein Leerzeichen müsste doch auf eine leere Glyphe hinweisen. Aber genau die kann ich im Texteditor nicht identifizieren.

Leider darf ich keinen Demotext zur Verfügung stellen. Aber kann sich das jemand vorstellen bzw. hat das schon mal jemand ähnlich gehabt?

Gruß
Top
 
X
olaflist p
Beiträge: 1279
11. Nov 2013, 22:23
Beitrag #2 von 6
Beitrag ID: #519589
Bewertung:
(1823 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


Lade Dir mal UnicodeChecker runter und schau (und lass uns wissen), welchen Unicode-Codepoint das Zeichen hat, bzw. die Zeichen direkt davor und danach. Achtung: manche Zeichen haben keine Ausdehnung - geht man mit dem Text Cursor über sie hinweg, bewegt sich der textcursor nicht weiter.

Olaf
--
Olaf Druemmer | Geschäftsführer
callas software gmbh | www.callassoftware.com
axaio software GmbH | www.axaio.com
als Antwort auf: [#519587] Top
 
Suzanne
Beiträge: 67
15. Nov 2013, 08:50
Beitrag #3 von 6
Beitrag ID: #519752
Bewertung:
(1721 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


Wenn ich dich richtig verstehe sind das sog. "Combining Diacritical Marks", mit denen manche OpenType-Schriften recht gut zurecht kommen. Sie belegen einen bestimmten Unicode-Block und können so gesucht und ersetzt werden.
als Antwort auf: [#519587] Top
 
rohrfrei S
Beiträge: 4323
25. Nov 2013, 15:09
Beitrag #4 von 6
Beitrag ID: #520060
Bewertung:
(1634 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


Hallo,

sorry, dass ich mich erst jetzt melde.

Nach hinreichender Untersuchung des Quelltexts kann ich da keinen "Fehler" entdecken. Der aus Acrobat heraus kopierte Text ist ja nur das Ergebnis. Wenn ich mir den unter Win oder Mac ansehe, dann zeigen die Systemeigenen Textviewer die auch schon unterschiedlich an. Unter Win z.B. mit Leerraum - am Mac in Textedit ohen Leerraum aber in Textwrangler wieder mit Leerraum.

Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat. Schließlich ist es ja bereits der Text aus dem fehlerhaften PDF und die Glyphe selbst als Unicode ist gleich eines der ganz oberen, also auch kein "echtes" Zeichen. Wichtiger wäre eine Glyphe im Quelltext zu erkennen, aber das ist mir leider nicht möglich. Ich werde nochmal den Workflow und die Entstehung des PDFs näher analysieren müssen.

Gruß
als Antwort auf: [#519752] Top
 
olaflist p
Beiträge: 1279
25. Nov 2013, 16:03
Beitrag #5 von 6
Beitrag ID: #520065
Bewertung:
(1614 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


Hallo rohrfrei,

Zitat Daher war der Tip zu UnicodeChecker schon mal eine Hilfe. Damit kann ich dann zweifelsfrei eine zusätzliche Glyphe identifizieren. Ich bezweifle aber, dass das an dieser Stelle eine echte Aussagekraft hat.


Wenn Du schon den Unicode Checker bemüht hast - welchen Codepoint hatte dieses Zeichen denn?

Olaf
--
Olaf Druemmer | Geschäftsführer
callas software gmbh | www.callassoftware.com
axaio software GmbH | www.axaio.com
als Antwort auf: [#520060] Top
 
rohrfrei S
Beiträge: 4323
25. Nov 2013, 20:06
Beitrag #6 von 6
Beitrag ID: #520074
Bewertung:
(1560 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Nicht sichtbare Glyphe aus Rohtext wird zu Akzent


"U+0001" in der Spalte HEX

Gruß
als Antwort auf: [#520065] Top
 
X