Zeichen aus Fremdalphabeten lassen sich über entsprechende Unicode-Ranges per GREP suchen.
Zur Zuweisung der Sprache Griechisch für griechischen Text suche ich z.B. nach [\x{0370}-\x{03FF}\x{1F00}-\x{1FFF}]+ und ersetze durch ein entsprechendes Zeichenformat, in dem die Sprache auf Griechisch eingestellt ist.
Weißräume, ggf. mit Komma, Semikolon, Punkt oder Doppelpunkt zwischen griechischen Wörtern spüre ich mit folgendem Ausdruck auf: (?<=[\x{0370}-\x{03FF}\x{1F00}-\x{1FFF}])[,\.;\:]?\s(?=[\x{0370}-\x{03FF}\x{1F00}-\x{1FFF}]).
Diese Ersetzungen nehme ich schriftstilspezifisch vor.
In der Regel gibt es also je ein ZF für Griechisch-Regular, Griechisch-Italic usw.
Damit wird griechischer Text quasi in ein Zeichenformat mit der Sprache Griechisch eingefroren – unabhängig davon, was nach dem Import aus Word an Sprachabweichungen erhalten geblieben ist.
Mit anderen Sprachen (Hebräisch, Kyrillisch, Koptisch, Syrisch …) verfahre ich analog.
Schwierig wird es bei unterschiedlichen Sprachen, die denselben Unicode-Bereich verwenden (deutsch, englisch, französisch, lateinisch ...).
Dort geht es – sofern die Sprache nicht nach dem Import aus Word noch als Abweichung ankommt und gesucht werden kann (mit ZF auszeichnen) – nur von Hand. Aber auch da gibt es unterstützende Möglichkeiten.
Meine Autoren heben z.B. lateinischen Text gerne kursiv hervor. Damit hat man schon mal ein Spezifizierungskriterium mit dem sich die Suche eingrenzen läßt.
als Antwort auf: [#468085]
(Dieser Beitrag wurde von Martin Fischer am 31. Mär 2011, 14:21 geändert)