hilfdirselbst.ch
Facebook Twitter gamper-media

PlugIns, XTensions und Knowhow: Publishing-Worker.com

Yann Borg
Beiträge: 337
23. Jun 2003, 20:44
Beitrag #1 von 8
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo,

eigentlich kein Problem in Verbindung mit ungeschützten PDFs: mit dem Textasuwahl-Werkzeug ein Bereich auswählen, kopieren und irgendwo einfügen. Oder einfacher über die Exportfunktion als ASCII-Text.

Aber leider geht es offensichtlich nicht mit alle PDF-Dateien: ich habe hunderte von PDFs die laut Dokumentzusammenfassung aus der Anwendung FOP 0.20.1 erstellt worden sind bei denen beide geschilderten "Extrahier" Methoden nicht funktionieren. Es wird zwar etwas kopiert, was auch eingefügt wird, aber definitiv Inhaltlich anders zusammengestellt ist: sehr viele Leerzeichen, hin- und wieder ein Sonderzeichen, mehr nicht. Das gleiche passiert wenn ich den Text exportiere.

Die Dokumentenschriften sind Grösstenteils als "Identity-H" kodiert aber eingebettet. Das Touch-Up Werkzeug ist nicht anwendbar "Diese Seite konnte nicht analysiert werden". Das Textbearbeitungswerkzeug aus PitStop Professional 5.0.4 hilft auch nicht weiter.

Konfiguration: Mac OS X 10.x & 9.x mit Acrobat 5.0.5.

Ideen?

Vielen Dank und Gruss,

Yann Top
 
X
Haeme Ulrich
Beiträge: 3102
23. Jun 2003, 21:20
Beitrag #2 von 8
Beitrag ID: #40798
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Das dürfte sehr schwierig werden, weil schlicht die Struktur-Infos fehlen in der Datei. Wir hatten mal eine ähnliche Aufgabe gestellt, wiesen sie nach diversenen Tests - auch via PostScript - als nur unbefriedigend lösbar zurück.

Herzliche Grüsse
Haeme Ulrich
http://www.ulrich-media.ch
-
Attraktive Schulungen unter
http://www.media-college.ch
als Antwort auf: [#40789] Top
 
Anonym
Beiträge: 22827
23. Jun 2003, 21:43
Beitrag #3 von 8
Beitrag ID: #40799
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo Häme,

auch Adobe Reader 6 hilft nicht weiter. Einzig die Sonderzeichen von kopiertem Text werden als Bullets angezeigt.

Upsala, ich sitze in der Klemme. Gibt es kein Wunder-Plug-In der die Aufgabe lösen könnte? Meine einzige Hoffnung (Ausser wir bekommen die PDFs nochmal -- was ich bezweifle).

Danke und Gruss,

Yann
als Antwort auf: [#40789] Top
 
erich.vogt  M 
Beiträge: 462
23. Jun 2003, 23:21
Beitrag #4 von 8
Beitrag ID: #40811
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo Zusammen

ich müsste die PDF's mal sehen. Wir haben sehr viel erfahrung im Bereich Datenkonvertierung.

Wenn ich die PDF's gesehen habe kann ich Dir auch den Lösungs oder Preisansatz für die Lösung geben. Je nach Analyse.

Gruss Erich
________________________________________
Vogt Solutions
Erich Vogt

mailto:erich.vogt@vogtsolutions.com
http://www.vogtsolutions.com
als Antwort auf: [#40789] Top
 
Wolfgang Reszel
Beiträge: 4170
23. Jun 2003, 23:32
Beitrag #5 von 8
Beitrag ID: #40815
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo,

die besagten PDFs stammen evtl. aus einer Konvertierung mittels Ghostscript, welches TrueType-Fonts so gut wie immer umkodiert, damit der Zeichenvorrat mit Postscript zusammenarbeitet. Die neuste Version von Ghostscript ist da zwar nicht mehr ganz so wild beim umkodieren, doch nützt das bei bereits geschriebenen PDFs recht wenig. Ich habe allerdings schon öfters gelesen, dass viele aktuelle OCR-Programme eine Möglichkeit bieten PDFs z.B. in Word-Dateien umzuwandeln, indem die Bildschirmausgabe einfach durch die Zeichenerkennung gejagt wird.

Wolfgang
als Antwort auf: [#40789] Top
 
Anonym
Beiträge: 22827
26. Jun 2003, 14:57
Beitrag #6 von 8
Beitrag ID: #41335
Bewertung:
(3374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo,

vielen Dank für das input. Leider kann ich zu diesem Zeitpunkt kein PDF zeigen, da es sich um vertrauliche Unternehmensinformationen handelt. Vielleicht steckt sogar Absicht dahinter und die Übernahme des Textes ist unerwünscht (es gäbe eigentlich auch andere Lösungen, aber diese hier hat den Vorteil sehr effizient zu sein ;-). Mal schauen, ich probiere die Hersteller des PDFs zu kontaktieren...

Gruss,

Yann
als Antwort auf: [#40789] Top
 
JakeyM
Beiträge: 1
4. Nov 2013, 08:58
Beitrag #7 von 8
Beitrag ID: #519269
Bewertung:
(2034 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


hey ich suche auch einen weg text aus pdf rauszuhohlen... bis jetzt war ich allerdings noch relativ unerfolgreich. habe nur http://pdftoword.pro/ gefunden aber das vermischt die texte aus dem pdf irgendwie :/

weiss sonst jemand was?

danke :)
als Antwort auf: [#40789] Top
 
klasinger p
Beiträge: 1566
4. Nov 2013, 09:50
Beitrag #8 von 8
Beitrag ID: #519274
Bewertung:
(2006 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Text aus PDF extrahieren


Hallo,

Acrobat XI leistet beim Textexport keinen schlechten Dienste (bin mir gerade auch nicht sicher ob das eingangs erwähte Acrobat 5 überhaupt sauber mit Identity-H umgehen kann, ein Text mit den Reader XI könnte Aufklärung verschaffen). Es gibt auch ein paar Alternativen, bspw. PdfGrabber, kann man mal im Internet suchen.
Wenn dabei jedoch schon alles zerschossen ist, dann liegt der Grund i.R. in der PDF-Datei und deren Erstellung. Bei falschen Font-Encoding oder den oben erwähnten Leerzeichen wird es kribbeliger. Eine Neuerstellung hilft manchmal, aber meist geht nur den Weg über OCR halbwegs sauber.
Mit freundlichen Grüssen
Klaas Posselt
--

Klaas Posselt
digital Prepress & ePaper Consulting
http://www.einmanncombo.de
als Antwort auf: [#519269] Top
 
X