[GastForen PrePress allgemein PDF in der Druckvorstufe Text aus PDF-Datei für Word exportieren

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Themen
Beiträge
Moderatoren
Letzter Beitrag

Text aus PDF-Datei für Word exportieren

aue
Beiträge gesamt: 703

3. Jan 2012, 02:33
Beitrag # 1 von 7
Bewertung:
(3907 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Liebe KollegInnen,

ich habe immer wieder das Problem, aus einer Druck-PDF eines textlastigen Buches eine Word-Datei exportieren zu müssen, um daraus später einen Neuumbruch zu erstellen. Leider ist die Qualität des Word-Exportes aus Acrobat meistens eher bescheiden: Absätze werden nicht zuverlässig erkannt, stattdessen Absatzschaltungen bei einfachem Zeilenumbruch eingefügt; Wordzwischenräumen/Zeichenabstände werden hinzugefügt (WZR-Doppelung, Zeichenabstände z.B. bei "ft") u.v.m. Kennt Ihr das Problem und wie sieht eure Lösung aus?

Vielen Dank für euer Nachdenken.
Schöne Grüße
Andreas

Eine Test-PDF sowie die Word-Datei daraus gibt es hier:
https://www.hidrive.strato.com/lnk/XZAkvRMZ
X

Text aus PDF-Datei für Word exportieren

Jabadabadu
Beiträge gesamt: 244

3. Jan 2012, 09:18
Beitrag # 2 von 7
Beitrag ID: #487268
Bewertung:
(3878 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Moin,

die gleichen Erfahrungen habe ich auch gemacht. Beim Sichern aus PDF nach DOC/RTF (meistens aus Adobe Acrobat) gehen auch die Sinnzusammenhänge (Tabellen, Marginalien etc.) verloren. Das scheint bisher in den Versionen des Acrobaten auch nicht besser geworden zu sein.

Ich helfe mir fast ausschließlich mit einem (sehr) guten OCR-Programm, in dem ich die einzelnen Textblöcke der Originalseite auch nachträglich noch einmal "neu ordnen" kann. Ich will keine Diskussion über das "beste" OCR-Programm auslösen; bei mir kommt Abbyy Finereader 10 auf Windows-Systemen zum Einsatz.

Zwischenzeitlich habe ich auch PDF2DOC oder PDF2ID (http://www.recosoft.com/products/pdf2id/) gefunden, aber damit noch keine Erfahrugnen gesammelt.


als Antwort auf: [#487264]

Text aus PDF-Datei für Word exportieren

olaflist
Beiträge gesamt: 1400

3. Jan 2012, 12:17
Beitrag # 3 von 7
Beitrag ID: #487280
Bewertung:
(3846 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Acrobat X hat eine neue Engine für Word-Export - würde ich mal ausprobieren, ist wirklich viel besser als alle Versionen vorher.

Olaf


als Antwort auf: [#487268]

Text aus PDF-Datei für Word exportieren

aue
Beiträge gesamt: 703

3. Jan 2012, 15:18
Beitrag # 4 von 7
Beitrag ID: #487295
Bewertung:
(3803 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Jörn und Olaf,

vielen Dank für eure Antworten.
Olaf: Ich arbeite mit Acrobat 10.1.1 und das liefert den fehlerhaften Export.

Jetzt versuche ich gerade, mit dem neuesten FineReader (11) die OCR-Qualität zu prüfen. Und tatsächlich gefällt mir das Ergebnis besser als mit dem Acrobat-Word-Export. Ich frage mich, ob der Text in der PDF überhaupt noch als Mengentext existiert, oder nicht eher als einzelne Textzeilen. Und beim Export wird dann versucht zu erkennen, wo ein Absatz beginnt und wo er endet und was ein Trennzeichen ist und was ein Divis usw. Dann wäre der Acrobat-Word-Export eher eine Interpretation denn ein Abspeichern in anderem Format. Das Problem ist halt, dass ein neu interpretierter Text (wie bei einer OCR) auch neu Korrektur gelesen werden müsste, was Zeit und Geld kostet.

Schöne Grüße
Andreas


als Antwort auf: [#487280]

Text aus PDF-Datei für Word exportieren

Jabadabadu
Beiträge gesamt: 244

3. Jan 2012, 17:16
Beitrag # 5 von 7
Beitrag ID: #487313
Bewertung:
(3775 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Ich nutze wie Andreas auch Acrobat X (per CS 5.5). Mir scheint, dass Acrobat entweder mehr in selbst festgelegten Rahmen "denkt" als das optische Ergebnis, das wir sehen (und lesen), zu lesen und auszugeben, oder eben zeilenorientiert arbeitet und dann "zu viele" Fehler produziert.

Nachdem mir dies ein paar Mal aufgefallen ist (und ich mir keinen Reim drauf machen konnte), bin ich zum Lesen per OCR übergewechselt. Und das funktioniert ausnehmend brauchbar.

Allerdings -- das für Andreas -- vertraue ich keinem Programm, auch keinem automatisiertem OCR-Programm; Kontrolle und Korrektur sind leider immer noch zu beachten.


als Antwort auf: [#487295]

Text aus PDF-Datei für Word exportieren

Uwe Laubender
Beiträge gesamt: 5252

3. Jan 2012, 17:39
Beitrag # 6 von 7
Beitrag ID: #487316
Bewertung:
(3764 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo, Andreas!

Mit cmd+4 habe ich die "View"-Eigenschaft des PDF-Dokuments in AcrobatPro 9.4.4 (Mac OS X 10.6.8) auf "Reflow" umgestellt. Anschließend den Text mit dem "Select"-Tool nach TextEdit kopiert. Der Textfluß blieb erhalten.

Das Ergebnis (rtf-Datei) habe ich hier angehängt.


als Antwort auf: [#487264]
Anhang:
Test_TextEdit.rtf (1.49 KB)

Text aus PDF-Datei für Word exportieren

aue
Beiträge gesamt: 703

3. Jan 2012, 21:53
Beitrag # 7 von 7
Beitrag ID: #487324
Bewertung:
(3727 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Uwe,

vielen Dank für deine Mühen. Das ist interessant, dann kann Acrobat ja doch einen Absatz als solchen erkennen. Warum gelingt das über den Word-Exportfilter nicht?
Ich muss jetzt mal schauen, ob dies auch für umfangreiche Werke praktikabel ist.

Schöne Grüße und frohes Schaffen
Andreas


als Antwort auf: [#487316]
X

Aktuell

PDF / Print
300_PDF20

Veranstaltungskalender

Hier können Sie Ihre Anlässe eintragen, welche einen Zusammenhang mit den Angeboten von HilfDirSelbst.ch wie z.B. Adobe InDesign, Photoshop, Illustrator, PDF, Pitstop, Affinity, Marketing, SEO, Büro- und Rechtsthemen etc. haben. Die Einträge werden moderiert freigeschaltet. Dies wird werktags üblicherweise innert 24 Stunden erfolgen.

pdf-icon Hier eine kleine Anleitung hinsichtlich Bedeutung der auszufüllenden Formularfelder.

Veranstaltungen
01.03.2023 - 09.03.2023

Online
Mittwoch, 01. März 2023, 00.00 Uhr - Donnerstag, 09. März 2023, 00.00 Uhr

Online Webinar

Wie gehen wir mit diesen Veränderungen um? Was ist notwendig, damit wir die Digitalisierung im Unternehmen klappt? Veränderungsprozesse verstehen und entsprechend handeln Mitarbeiter als Botschafter Webseite mit WordPress erstellen SEA /SEO (Ads aufschalten)

Ja

Organisator: B. Isik - SNF Academy

Kontaktinformation: B. Isik, E-Mailinfo AT snfa DOT ch

https://www.fernstudiumfitness.ch/digitalisierung-schweiz/