hilfdirselbst.ch
Facebook Twitter gamper-media

**********************************************
        Facelifting HDS: Danke für deine Unterstützung!

**********************************************


-hans-
Beiträge: 737
17. Mai 2017, 10:09
Beitrag #1 von 5
Bewertung:
(1649 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

xml-Datei Encoding


Hallo zusammen,

ich habe eine Reihe von xml-Dateien (eigentlich utf8) die von Extendscript nicht korrekt gelesen werden können, da auch Zeichen enthalten sind die wohl nicht in utf8 enthalten sind ...

Im vorliegenden Beispiel in der vorletzten Zeile:
https://www.dropbox.com/...Roetgen.xml.zip?dl=0

TextEdit (Automatisch) und Brackets können diese Datei z.B. gar nicht öffnen.
Öffnen mit Atom und sichern unter ergibt eine intakte utf8 kodierte Datei.
Mit AppleScript kann ich die Datei einlesen, aber nur indem ich das encoding weglasse. Die Folge: alle Umlaute etc sind nicht korrekt. Müsste dann per suchen und ersetzen ... selbst iconv bricht in der vorletzten Zeile wider ab ...

Hat vielleicht jemand einen Idee¿

Besten Tag! :)
Lieben Gruß

Hans-Gerd Claßen Top
 
X
Uwe Laubender S
Beiträge: 4039
17. Mai 2017, 11:01
Beitrag #2 von 5
Beitrag ID: #557484
Bewertung:
(1638 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

xml-Datei Encoding


Hallo Hans-Gerd,

wenn ich die Datei versuche, mit TextWrangler zu öffnen, kommt folgende Warnmeldung:

Zitat Incorrect formatted UTF-8
The UTF-8 file "Roetgen.xml" is damaged or incorrectly formatted: Please proceed with caution.


Geöffnet, sehe ich ein paar Probleme.

In Zeile 363 steht ein sog. "Gremlin" (als umgedrehtes Fragezeichen dargestellt) im Wort K¿ckhoven.
In Zeile 345 steht ein Leerzeichen im öffnenden Tag. Das folgende Wort wird in "rot" markiert.

Mit der Funktion Text>Zap Gremlins kann ich die Umlaute in Entities wandeln.
Das ¿ in K¿ckhoven lässt sich damit allerdings nicht reparieren. Beispielsweise in ein "ü".

Einstellung Zap Gremlins:

Search for:
[x] Non-ASCII characters
[x] Control characters
[x] Null (ASCII 0) characters

and then:
[x] Replace with HTML entity
[x] Use named entities
*****
Mit herzlichem Gruß,
Uwe Laubender
als Antwort auf: [#557483] Top
 
-hans-
Beiträge: 737
17. Mai 2017, 11:52
Beitrag #3 von 5
Beitrag ID: #557488
Bewertung:
(1631 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

xml-Datei Encoding


Hallo Uwe,

so isset :)

Ich versuche mal mit dem Lieferant der Daten in Konatkt zu treten ... ist halt immer schwieritsch :)

LG
Lieben Gruß

Hans-Gerd Claßen
als Antwort auf: [#557484] Top
 
Uwe Laubender S
Beiträge: 4039
17. Mai 2017, 12:57
Beitrag #4 von 5
Beitrag ID: #557491
Bewertung:
(1625 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

xml-Datei Encoding


Hallo Hans-Gerd,

das dürfte das beste sein.

Hab die Datei auch mal mit "Atom 1.0" geöffnet.
Auch hier wird das "Ersetzen"-Zeichen in K¿ckhoven nur als solches angezeigt.

Wobei ich im Unterschied zu "Atom 1.0" die Warnmeldung von TextWrangler angenehmer finde.
Da wird sofort auf ein Problem hingewiesen.
Aber was sag' ich, hab' mich gerade mal 2 Minuten mit "Atom 1.0" beschäftigt.

Witziges Video übrigens: Introducing Atom 1.0
https://www.youtube.com/watch?v=Y7aEiVwBAdk
*****
Mit herzlichem Gruß,
Uwe Laubender
als Antwort auf: [#557488] Top
 
-hans-
Beiträge: 737
17. Mai 2017, 15:53
Beitrag #5 von 5
Beitrag ID: #557498
Bewertung:
(1606 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

xml-Datei Encoding


:)
Lieben Gruß

Hans-Gerd Claßen
als Antwort auf: [#557491] Top
 
X