Forenindex » Programme » Web/Internet » PDF Grundlagen / Web / eForms » Texte extrahieren/exportieren

Texte extrahieren/exportieren

EssWeh
Beiträge gesamt: 532

20. Jan 2012, 09:44
Bewertung:

gelesen: 1784

Beitrag als Lesezeichen
Guten Morgen liebe Acrobaten,

wir müssen eine größere Menge an Dokumenten (Broschüren, Infoblätter, Flyer usw.) in ein neues Corporate Design überführen - die Texte müssen also neu gesetzt werden. Dazu erhalten wir die Altdaten (auch Abbildungen) in den meisten Fällen als PDF, in diesem Falle (ausnahmsweise leider ... ; - ) seltener als Word-File.

Leider gelingt es uns bislang nicht, diese Texte ohne intensiven Nachbearbeitungsbedarf zu extrahieren, d. h., bei den verschiedenen Varianten des Textexports (oder "Speichern unter") tauchen auch unterschiedliche Probleme auf: Mal gehen sämtliche Umlaute flöten, dann wiederum folgt nach jeder Zeile eine Absatzschaltung oder aber das Layout wird völligst zerschossen (rtf/doc) usw.

Am "zuverlässigsten" funktioniert der einfache Textexport (txt) - wenigstens die Absätze werden zusammengehalten, dafür fliegen aber sämtliche Divis/Bindestriche raus - die Layouter müssen also wirklich alles lesen ..., uff.

Wie geht Ihr vor, wenn Ihr vor allen Dingen größere Mengen an Text aus einer PDF-Datei "rausholen" müsst??


Schönen Gruß aus Mainz NullFümpf ... 8 - P
Stefan

Texte extrahieren/exportieren

MurphysLaw
Beiträge gesamt: 588

20. Jan 2012, 11:57
Bewertung:

gelesen: 1756

Beitrag als Lesezeichen
Hi Stefan,

die Acrobat Exportfunktion nach Word kannste vergessen, die taugt nichts.
Wohl aber die nach HTML. :-)
Bei sauber kodierten PDF habe ich meist ziemlich gute Ergebnisse erzielt, indem ich
a) die PDF als HTML 4 exportiert habe
b) die HTML dann in Word geöffnet, in Seitenansicht gewechselt und als DOC gespeichert habe.

Viel Glück!
Murphy

________________________________________

Die letzte Stimme, die man hört, bevor die Welt explodiert, wird die Stimme eines Experten sein, der sagt: Das ist technisch unmöglich! (Sir Peter Ustinov)

Texte extrahieren/exportieren

klasinger
Beiträge gesamt: 1671

20. Jan 2012, 14:24
Bewertung:

gelesen: 1731

Beitrag als Lesezeichen
Hallo Stefan,

die Fähigkeiten beim Textexport haben sich mit Acrobat X erheblich gesteigert - leider hast du uns deine Version nicht verraten.
Weiterhin istd as schlechte Ergebnis häufig nihct einmal Acrobat andzulasten, sondern dem schlechten Satz im ursprünglichen Layout: Trennungen mit Minus und Schift Return,... .
Wenn auch Acrobat X nicht hilft (Testversion für WIN verfügbar), versuche bspw. mal das TET Plugin von pdflib.

Mit freundlichen Grüssen
Klaas Posselt
--

Klaas Posselt
digital Prepress & ePublishing Consulting
https://www.einmanncombo.de

Texte extrahieren/exportieren

EssWeh
Beiträge gesamt: 532

20. Jan 2012, 15:08
Bewertung:

gelesen: 1713

Beitrag als Lesezeichen
Hallo zusammen,

Danke für Eure hilfreichen Antworten!
Und stimmt - dass ich Acrobat 9 Pro nutze habe ich doch glatt unterschlagen ...

@ Murphy
Über diesen Weg kann ich wenigstens die Struktur, Absätze und Aufzählungen erhalten, auch wenn immer noch eine ganze Menge "Handarbeit" bleibt.
Ärgerlich ist ebenfalls, dass Bindestriche wieder rausfliegen ... trotzdem vielen Dank für diesen Tipp!

@ Klaas
Ja, die Exportfunktionen sind tatsächlich bescheiden. Vielleicht lässt es unsere IT ja zu, eine Demoversion der Version X zeitnah zu installieren, dann könnten wir das testen.
Und nach dem empfohlenen PlugIn werde ich ebenfalls mal suchen.

Danke Euch und ein schönes Wochenende!


Schönen Gruß aus Mainz NullFümpf ... 8 - P
Stefan