[GastForen Programme Print/Bildbearbeitung Adobe InDesign Textcodierung vor dem Import feststellen?

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Print/Bildbearbeitung - Photos, Layout, Design
Themen
Beiträge
Moderatoren
Letzter Beitrag

Textcodierung vor dem Import feststellen?

rohrfrei
Beiträge gesamt: 4488

4. Nov 2010, 11:48
Beitrag # 1 von 16
Bewertung:
(10692 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

meine Frage hat nur indirekt etwas mit InDesign zu tun, aber die anderen Boards passen auch nicht richtig, daher hier der Versuch.

Ich bekomme internationale Texte als einfache Textdateien geliefert, also kein Word o.ä. Diese Texte enthalten internationale Sonderzeichen. Beim Textimport in InDesign kann ich bei den Importoptionen die Codierung wählen - in ID heißt das "Zeichensatz". Und per try-and-error finde ich auch die entsprechende, so dass der Text in ID korrekt mit allen Sonderzeichen dargestellt wird. Aber gibt es eine Möglichkeit, die Textcodierung schon vor dem Import festzustellen, damit man dann in ID zielgerichtet die Auswahl treffen kann?

Ich stelle mir ein Programm vor, das ähnlich wie bei Musik- oder Videodateien den Codec ausliest und anzeigen kann. Bei den Texten eben die verwendete Cordierung. Mit Codierung meine ich den verwendeten Zeichensatz, also ob UTF8 oder UTF-16 und ob Mac oder Win.

Gruß
X

Textcodierung vor dem Import feststellen?

WernerPerplies
Beiträge gesamt: 2723

4. Nov 2010, 13:08
Beitrag # 2 von 16
Beitrag ID: #456007
Bewertung:
(10660 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo rohrfrei,

Zitat Ich stelle mir ein Programm vor, das ähnlich wie bei Musik- oder Videodateien den Codec ausliest und anzeigen kann. Bei den Texten eben die verwendete Cordierung. Mit Codierung meine ich den verwendeten Zeichensatz, also ob UTF8 oder UTF-16 und ob Mac oder Win.


Textdateien enthalten typischerweise keinen Header oder eine Datenbeschreibung.

Deshalb kann man sich nur mit "try und error" an die richtige Codierung herantasten. Das kann natürlich auch ein Programm erledigen, das Ergebnis kann aber nicht immer eindeutig sein.

Relativ einfach wäre die Erkennung Win/Mac, da beide Systeme unterschiedliche Zeilenenden verwenden.

UTF-16 und UTf-32 kann man auch noch relativ leicht erkennen, weil es sich um einen 2/4-Bytecode handelt, ein relativ sicheres Zeichen ist das Vorkommen des Codes x00. Dann wäre nur noch die Byteorder festzustellen, die oft sogar explizit angegegeben wird -> suche mal nach BOM.

Richtig schwierig wird es bei 8-Bit-Codes. hier müsse man auf bestimmte Wörter einer Sprache testen, die spezielle Sonderzeichen enthalten und möglichst in jedem Text vorkommen.


als Antwort auf: [#455999]

Textcodierung vor dem Import feststellen?

Gerald Singelmann
  
Beiträge gesamt: 6268

4. Nov 2010, 13:28
Beitrag # 3 von 16
Beitrag ID: #456010
Bewertung:
(10652 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Text Wrangler macht das normalerweise recht zuverlässig.
Ich benutze es auch oft, um eine Codierung zu ändern, Absatzenden für Windows aufzubereiten oder den BOM vom UTF wegzunehmen etc.


als Antwort auf: [#455999]

Textcodierung vor dem Import feststellen?

rohrfrei
Beiträge gesamt: 4488

4. Nov 2010, 13:39
Beitrag # 4 von 16
Beitrag ID: #456013
Bewertung:
(10642 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

in der Tat scheint TextWrangler ein sehr mächtiges Tool zu sein. Aber wo wird die Codierung angezeigt? Sorry, habe ich nicht gefunden in den Menüs. Get-Info ist es nicht.

Gruß


als Antwort auf: [#456010]

Textcodierung vor dem Import feststellen?

Martin Fischer
  
Beiträge gesamt: 12707

4. Nov 2010, 13:47
Beitrag # 5 von 16
Beitrag ID: #456014
Bewertung:
(10634 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Rohrfrei,

> Aber wo wird die Codierung angezeigt?

Unten in der Fußleiste. ;-)


als Antwort auf: [#456013]
(Dieser Beitrag wurde von Martin Fischer am 4. Nov 2010, 13:49 geändert)

Textcodierung vor dem Import feststellen?

farbauge
Beiträge gesamt: 844

4. Nov 2010, 13:55
Beitrag # 6 von 16
Beitrag ID: #456015
Bewertung:
(10625 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Moin,

gibt es auch eine Lösung für Windows?

Gruß
Peter


als Antwort auf: [#456014]

Textcodierung vor dem Import feststellen?

rohrfrei
Beiträge gesamt: 4488

4. Nov 2010, 13:55
Beitrag # 7 von 16
Beitrag ID: #456016
Bewertung:
(10624 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
patsch, mitten ins Gesicht, guten Morgen
bedanke mich vielmals für die Aufhellung, was die Kanne Kaffee bisher offenbar noch nicht geschafft hat...

Gruß


als Antwort auf: [#456014]

Textcodierung vor dem Import feststellen?

Sacha Heck
Beiträge gesamt: 3281

4. Nov 2010, 13:58
Beitrag # 8 von 16
Beitrag ID: #456017
Bewertung:
(10621 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Rohrfrei,

Zitat Aber wo wird die Codierung angezeigt?

Unten in der Statusleiste? Bei einem kurzen Test mit Textwrangler hat
dieser eine Word-Datei jedoch nicht korrekt dargestellt. Da stimmte die
Codierung wahrscheinlich schon nicht. Mich würde daher auch so
ein Tool interessieren.

Ich hab dieses Tool gefunden und auch dies aber letzteres scheint nicht
mehr verfügbar zu sein. Der Encoding Master erkennt die Kodierung
auch nicht wirklich sondern man hat die Möglichkeit, etliche Kodierungen
auszuprobieren, die in Frage kommen und dann zu konvertieren o.ä. ...

Gruß,
Sacha


als Antwort auf: [#456013]

Textcodierung vor dem Import feststellen?

rohrfrei
Beiträge gesamt: 4488

4. Nov 2010, 14:58
Beitrag # 9 von 16
Beitrag ID: #456021
Bewertung:
(10575 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
also bei meinen Texten klappt es super und er zeigt es auch entsprechend an

Gruß


als Antwort auf: [#456017]

Textcodierung vor dem Import feststellen?

Be.eM
Beiträge gesamt: 3313

4. Nov 2010, 15:37
Beitrag # 10 von 16
Beitrag ID: #456026
Bewertung:
(10548 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf [ Sacha Heck ] Bei einem kurzen Test mit Textwrangler hat
dieser eine Word-Datei jedoch nicht korrekt dargestellt. Da stimmte die
Codierung wahrscheinlich schon nicht.


Eine Word-Datei ist keine Text-Datei mit durchgängigem Encoding. Wenn ich das richtig sehe, werden in Word-Dateien Encodings abhängig u.a. von der Sprache per Format mitgegeben, sind also im Quelltext nicht zwingend ersichtlich. TextWrangler funktioniert mit reinen Textdateien.

Bernd


als Antwort auf: [#456017]

Textcodierung vor dem Import feststellen?

Sacha Heck
Beiträge gesamt: 3281

4. Nov 2010, 15:43
Beitrag # 11 von 16
Beitrag ID: #456028
Bewertung:
(10546 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Bernd,

Zitat TextWrangler funktioniert mit reinen Textdateien.

Meinst du damit solche mit der Endung .txt? Das stimmt,
die werden korrekt dargestellt.

Gruß,
Sacha


als Antwort auf: [#456026]

Textcodierung vor dem Import feststellen?

Be.eM
Beiträge gesamt: 3313

4. Nov 2010, 15:53
Beitrag # 12 von 16
Beitrag ID: #456031
Bewertung:
(10539 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf [ Sacha Heck ] Meinst du damit solche mit der Endung .txt? Das stimmt,
die werden korrekt dargestellt.


Genau diese. Die enthalten nämlich im Gegensatz zu Word, RTF usw. keine programmabhängigen Meta-Informationen in Form von Fonts, Sprache, Schnitt usw. Gar nichts, außer reinem formbefreiten Text :-)

Bernd


als Antwort auf: [#456028]

Textcodierung vor dem Import feststellen?

WernerPerplies
Beiträge gesamt: 2723

4. Nov 2010, 16:33
Beitrag # 13 von 16
Beitrag ID: #456039
Bewertung:
(10508 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
;-)

Nein, so einfach ist das nicht. Die Endung ".txt" ist lediglich eine Konvention, grundsätzlich könnte man jede beliebige Dateiendung verwenden.

CSV-, SDF-, LOG-, RTF-, XML- und HTML-Dateien sind beispielsweise alles reine Textdateien, manche enthalten Informationen über die Codierung, manche nicht.

Manche dieser Dateien sind streng strukturiert, manche nicht.

Das Word (DOC) -Format ist ein binäres Format, das intern mit Zeigerstrukturen arbeitet. Jede externe Änderung führt in der Regel zur Zerstörung der Datei.

Du kannst aber bei bestimmten (allen?) Wordversionen die Endung "doc" duch die Endung "txt" ersetzen und Word wird diese Datei dennoch lesen können.


als Antwort auf: [#456031]

Textcodierung vor dem Import feststellen?

farbauge
Beiträge gesamt: 844

4. Nov 2010, 18:02
Beitrag # 14 von 16
Beitrag ID: #456057
Bewertung:
(10485 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Zitat Du kannst aber bei bestimmten (allen?) Wordversionen die Endung "doc" duch die Endung "txt" ersetzen und Word wird diese Datei dennoch lesen können.


Vielleicht bei *.doc, bei den xml-basierten docx ab 2007 sieht's lustig aus.

Ceterum censeo: gibt's auch'n Tool für Windows?

Gruß
Peter


als Antwort auf: [#456039]

Textcodierung vor dem Import feststellen?

WernerPerplies
Beiträge gesamt: 2723

4. Nov 2010, 18:16
Beitrag # 15 von 16
Beitrag ID: #456061
Bewertung:
(10473 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Peter,
Zitat Vielleicht bei *.doc, bei den xml-basierten docx ab 2007 sieht's lustig aus.

;-)

das überrascht mich nicht wirklich, docx ist eine Zip-Datei, und Word müsste die Datei zuerst einmal auspacken, um festzustellen, ob es sich um eine Worddatei handelt, während es bei einer "Doc"-Datei nur wenige Bytes benötigt, um die Datei zu erkennen.

Zitat gibt's auch'n Tool für Windows?


Keine Ahnung, der Aufwand wäre vermutlich überschaubar, aber es gibt wohl nicht viel Anwender, die so etwas brauchen.

Nachdem ich mir kurz angesehen habe, was "TextWrangler" ist:

Schau Dir mal Notepad++ an.


als Antwort auf: [#456057]
(Dieser Beitrag wurde von WernerPerplies am 4. Nov 2010, 18:35 geändert)
X