Hallo Sacha,
Dein Tipp mit dem Waschgang durch das HTML-Format ist mir gerade Gold wert:
Die letzten Tage hatte ich große Probleme beim Import von Word-Dokumenten:
1. Import der Originaldateien im Word-Format -> ganze Passagen von Grundtext werden ohne erkennbare Regel in neue Fußnoten verschoben; typographische Anführungszeichen werden teilweise (sic!) als 'Ó' und 'Ò' umgesetzt.
2. Reinigung der Worddokumente in OpenOffice (von dort als RTF sichern) -> Umlaute werden zuhauf (nicht alle) durch kryptische Sonderzeichen ersetzt (läßt sich über Suche-Ersetze bereinigen); typographische Anführungszeichen werden teilweise (sic!) als 'Ó' und 'Ò' umgesetzt; es gehen auch viele Kursiv-Auszeichnungen verloren; aus "Times New Roman" wird "TimesハNewハRoman".
3. Reinigung der Worddokumente über das Sichern als HTML, öffnen und neues Sichern als Word-Dokument -> damit erziele ich im Moment den zuverlässigsten Import (Umlaute bleiben erhalten, Kursiv-Auszeichnungen auch).
Ohne Deinen Tipp würde ich über Hunderte von Seiten hinweg fehlende Kursiv-Auszeichnungen aufstöbern.
Die Ursache für den gestörten Import im Word-Format und im über OpenOffice umgewandelten RTF ist mir noch nicht klar. Ich vermute, daß die Dokumente ursprünglich nicht in Word erfaßt worden sind, sondern in einem anderen Textverarbeitsungsprogramm (WordPerfect?) und dann nach Word konvertiert wurden.
Sascha hat mir auch die Quelle des Tricks verraten:
Der Tipp stammt aus dem DesignGeek-Newsletter von Anne-Marie
Concepcion. Überschrift »Degunkifying Word-Files« Hier der Link dazu:
http://www.senecadesign.com/...gngeek/indesign.html