[GastForen Programme Web/Internet PDF Grundlagen / Web / eForms Text exportieren aus PDF Dokument

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Web/Internet - Webdesign, eForms
Themen
Beiträge
Moderatoren
Letzter Beitrag

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

20. Sep 2007, 21:14
Beitrag # 1 von 13
Bewertung:
(14503 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

wir haben von unserem Kunden ein PDF Dokument bekommen - mit dem Text soll ein Folder designt werden.

Leider können wir den Text nicht und nicht ordentlich extrahieren. Die "normale" herkömmliche Vorgangsweise, markieren, kopieren + einfügen, bringt beispielsweise folgendes Ergebnis:

Þ»· ˲º–´´»² ·³ Ì«²²»´ »²¬­½¸»·¼»² Í»µ«²¼»²ò
Ü«®½¸ »·²» ¦»·¬»ºº·¦·»²¬ ¿¾´¿«º»²¼» Ô±¹·­¬·µ ¼»®
묬«²¹­³¿y²¿¸³»² µ†²²»² Ó»²­½¸»²´»¾»² ¹»ó
®»¬¬»¬ô Ù»º¿¸®»² «³¹¿²¹»² «²¼ ¸±¸»® ³¿¬»®·»´´»®
ͽ¸¿¼»² ©·®µ­¿³ ª»®¸·²¼»®¬ ©»®¼»²ò

(Der abgebildete Text im PDF ist normales Deutsch). Wir haben auch schon versucht das Dokument unter neuem Namen zu speichern, nochmals ein PDF zu machen, den Text zu exportieren, eine HTML-Datei zu erstellen und diese auszulesen - leider vergeblich. Der Text wird immer zum Zahlensalat.

Hat vielleicht jemand eine Idee was wir noch tun können - Vielen Dank

PS: Wir arbeiten auf Mac, Acrobat ist in Version 5 und 8 als Vollversion vorhanden.
X

Text exportieren aus PDF Dokument

taunus11
Beiträge gesamt: 609

20. Sep 2007, 22:34
Beitrag # 2 von 13
Beitrag ID: #313487
Bewertung:
(14486 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Ich würde mal Iceni Gemini ausprobieren (http://www.iceni.com/gemini-uses.htm). Die Software ermöglicht es, die Kodierung der Schriften zu ändern.


als Antwort auf: [#313475]

Text exportieren aus PDF Dokument

SebastianMC
Beiträge gesamt:

21. Sep 2007, 08:10
Beitrag # 3 von 13
Beitrag ID: #313496
Bewertung:
(14462 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Guten Morgen Ulrike

Eine anderte Alternative unter Windows wäre das Text Extraction Toolkit von PDFlib:
http://www.pdflib.com/products/tet-plugin/
(kostet nix)

Grüsse
Sebastian


als Antwort auf: [#313475]

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

21. Sep 2007, 08:59
Beitrag # 4 von 13
Beitrag ID: #313503
Bewertung:
(14453 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

ich werde Eure Tips nun ausprobieren und bedanke mich herzlich für die Hilfe.

Mittlerweile hab ich auch rausgefunden, daß dieses Zahlengewirr doch einen Sinn ergibt. Jedes Zeichen steht für einen Buchstaben - also z.B. "2" = "n". Ich vermute nun, daß der Ersteller dieses Dokuments irgendeinen seltsamen Font genommen hat, der nicht mit den "Regeln" einer normalen, professionellen Schrift erstellt wurde (Sorry - die genauen Fachtermini dafür kenne ich nicht)

Danke nochmals
u


als Antwort auf: [#313496]

Text exportieren aus PDF Dokument

Marc Véron
Beiträge gesamt: 484

21. Sep 2007, 15:28
Beitrag # 5 von 13
Beitrag ID: #313596
Bewertung:
(14423 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Guten Tag,

Womit wurde denn die PDF-Datei erzeugt? (Diese Info unter den Dokumenteigenschaften zu finden).

.


als Antwort auf: [#313503]

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

21. Sep 2007, 15:35
Beitrag # 6 von 13
Beitrag ID: #313604
Bewertung:
(14422 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

dieses Machwerk wurde mit pdfFactory erzeugt (v 1.57) unter Windows XP German
PDF Version 1.2

g
u


als Antwort auf: [#313596]

Text exportieren aus PDF Dokument

Marc Véron
Beiträge gesamt: 484

21. Sep 2007, 15:58
Beitrag # 7 von 13
Beitrag ID: #313608
Bewertung:
(14418 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Guten Tag,

Da kann man wohl nichts tun.

Was mir in einem solchen Fall mit viel Text geholfen hat: OCR direkt ab PDF mit Abbyy FineReader. Eine Testversion gibt es bei http://www.abbyy.de

.


als Antwort auf: [#313604]

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

21. Sep 2007, 16:15
Beitrag # 8 von 13
Beitrag ID: #313615
Bewertung:
(14415 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf [ Marc Véron ] Guten Tag,

Da kann man wohl nichts tun.

Was mir in einem solchen Fall mit viel Text geholfen hat: OCR direkt ab PDF mit Abbyy FineReader. Eine Testversion gibt es bei http://www.abbyy.de

.


Auf jeden Fall DANKE für die Mühe.
g
u


als Antwort auf: [#313608]

Text exportieren aus PDF Dokument

Sacha Heck
Beiträge gesamt: 3281

27. Aug 2008, 12:55
Beitrag # 9 von 13
Beitrag ID: #363992
Bewertung:
(13911 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

Ich greife dieses etwas ältere Thema noch einmal auf.

Ich habe gerade auch mal wieder den Fall dass Texte aus alten PDF-Dateien
für eine neue Aufbereitung genutzt werden sollen. Leider scheitern alle
Methoden kläglich. Das Druck-PDF wurde als v1.3 aus InDesign CS2
exportiert. Mit dem Textauswahlwerkzeug in Acrobat 7.0.9 kann ich den
Text nicht kopieren. InDesign stürzt beim pasten immer ab (CS2 4.0.5).
Mit »Speichern unter« bekomm ich den Text (ob als RTF oder Word-Doc)
nur so raus, dass er so überarbeitet werden müsste dass man ihn besser
neuschreiben würde.

Ich würde gern den TET probieren, aber mir steht keine Win-Maschine
zur Verfügung. Den Abbyy Finereader kann ich mal versuchen.
Ich habe auch versucht das PDF in Acrobat nachträglich zu taggen
um ev. zu besseren Resultaten zu kommen. Tat es aber nicht.

Frage: Hat sich da ev. mit Acrobat 8 oder 9 was geändert was so einen
Workflow erleichtern könnte oder kennt sonst jemand vielleicht einen
intelligenten Workaround?

Gruß,
Sacha


als Antwort auf: [#313615]

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

27. Aug 2008, 13:09
Beitrag # 10 von 13
Beitrag ID: #363996
Bewertung:
(13905 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

ich konnte das Problem damals mit "Read Iris" lösen (Mac). Die Texte konnte ich damit auslesen. Da ich immer wieder solche Probleme mit unlerserlichen Dokumenten hab und auch ab und zu ein OCR Programm benötige, hat sich die Investition auch gelohnt.

g
u


als Antwort auf: [#363992]

Text exportieren aus PDF Dokument

Sacha Heck
Beiträge gesamt: 3281

27. Aug 2008, 13:12
Beitrag # 11 von 13
Beitrag ID: #363998
Bewertung:
(13901 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Ulrike,

Danke für die Rückmeldung und den Tipp.

MfG,
Sacha


als Antwort auf: [#363996]
(Dieser Beitrag wurde von siuloong am 27. Aug 2008, 13:13 geändert)

Text exportieren aus PDF Dokument

Ulrike
Beiträge gesamt: 146

27. Aug 2008, 13:23
Beitrag # 12 von 13
Beitrag ID: #364002
Bewertung:
(13894 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Gern geschehen.

Wenn das aktuelle PDF ein Einzelfall ist, helf ich Dir auch gerne idem ich es für dich in eine Textdatei umwandle!


als Antwort auf: [#363998]

Text exportieren aus PDF Dokument

Sacha Heck
Beiträge gesamt: 3281

27. Aug 2008, 13:28
Beitrag # 13 von 13
Beitrag ID: #364004
Bewertung:
(13891 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Ulrike,

Zitat helf ich Dir auch gerne idem ich es für dich in eine Textdatei umwandle!

Das ist sehr nett, danke fürs Angebot. :-) Es handelt sich hier aber um
ein paar PDFs die alle ca. 150MB schwer sind. Und ich brauch' auch
nicht alle Texte ... ich guck mal weiter.

Viele Grüße,
Sacha


als Antwort auf: [#364002]
X