[GastForen Programme Web/Internet PDF Grundlagen / Web / eForms Text aus PDF extrahieren

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Web/Internet - Webdesign, eForms
Themen
Beiträge
Moderatoren
Letzter Beitrag

Text aus PDF extrahieren

Yann Borg
Beiträge gesamt: 337

23. Jun 2003, 20:44
Beitrag # 1 von 8
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

eigentlich kein Problem in Verbindung mit ungeschützten PDFs: mit dem Textasuwahl-Werkzeug ein Bereich auswählen, kopieren und irgendwo einfügen. Oder einfacher über die Exportfunktion als ASCII-Text.

Aber leider geht es offensichtlich nicht mit alle PDF-Dateien: ich habe hunderte von PDFs die laut Dokumentzusammenfassung aus der Anwendung FOP 0.20.1 erstellt worden sind bei denen beide geschilderten "Extrahier" Methoden nicht funktionieren. Es wird zwar etwas kopiert, was auch eingefügt wird, aber definitiv Inhaltlich anders zusammengestellt ist: sehr viele Leerzeichen, hin- und wieder ein Sonderzeichen, mehr nicht. Das gleiche passiert wenn ich den Text exportiere.

Die Dokumentenschriften sind Grösstenteils als "Identity-H" kodiert aber eingebettet. Das Touch-Up Werkzeug ist nicht anwendbar "Diese Seite konnte nicht analysiert werden". Das Textbearbeitungswerkzeug aus PitStop Professional 5.0.4 hilft auch nicht weiter.

Konfiguration: Mac OS X 10.x & 9.x mit Acrobat 5.0.5.

Ideen?

Vielen Dank und Gruss,

Yann
X

Text aus PDF extrahieren

Haeme Ulrich
Beiträge gesamt: 3102

23. Jun 2003, 21:20
Beitrag # 2 von 8
Beitrag ID: #40798
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Das dürfte sehr schwierig werden, weil schlicht die Struktur-Infos fehlen in der Datei. Wir hatten mal eine ähnliche Aufgabe gestellt, wiesen sie nach diversenen Tests - auch via PostScript - als nur unbefriedigend lösbar zurück.

Herzliche Grüsse
Haeme Ulrich
http://www.ulrich-media.ch
-
Attraktive Schulungen unter
http://www.media-college.ch


als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym
Beiträge gesamt: 22827

23. Jun 2003, 21:43
Beitrag # 3 von 8
Beitrag ID: #40799
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Häme,

auch Adobe Reader 6 hilft nicht weiter. Einzig die Sonderzeichen von kopiertem Text werden als Bullets angezeigt.

Upsala, ich sitze in der Klemme. Gibt es kein Wunder-Plug-In der die Aufgabe lösen könnte? Meine einzige Hoffnung (Ausser wir bekommen die PDFs nochmal -- was ich bezweifle).

Danke und Gruss,

Yann


als Antwort auf: [#40789]

Text aus PDF extrahieren

erich.vogt
  
Beiträge gesamt: 484

23. Jun 2003, 23:21
Beitrag # 4 von 8
Beitrag ID: #40811
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Zusammen

ich müsste die PDF's mal sehen. Wir haben sehr viel erfahrung im Bereich Datenkonvertierung.

Wenn ich die PDF's gesehen habe kann ich Dir auch den Lösungs oder Preisansatz für die Lösung geben. Je nach Analyse.

Gruss Erich
________________________________________
Vogt Solutions
Erich Vogt

mailto:erich.vogt@vogtsolutions.com
http://www.vogtsolutions.com


als Antwort auf: [#40789]

Text aus PDF extrahieren

Wolfgang Reszel
Beiträge gesamt: 4170

23. Jun 2003, 23:32
Beitrag # 5 von 8
Beitrag ID: #40815
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

die besagten PDFs stammen evtl. aus einer Konvertierung mittels Ghostscript, welches TrueType-Fonts so gut wie immer umkodiert, damit der Zeichenvorrat mit Postscript zusammenarbeitet. Die neuste Version von Ghostscript ist da zwar nicht mehr ganz so wild beim umkodieren, doch nützt das bei bereits geschriebenen PDFs recht wenig. Ich habe allerdings schon öfters gelesen, dass viele aktuelle OCR-Programme eine Möglichkeit bieten PDFs z.B. in Word-Dateien umzuwandeln, indem die Bildschirmausgabe einfach durch die Zeichenerkennung gejagt wird.

Wolfgang


als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym
Beiträge gesamt: 22827

26. Jun 2003, 14:57
Beitrag # 6 von 8
Beitrag ID: #41335
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

vielen Dank für das input. Leider kann ich zu diesem Zeitpunkt kein PDF zeigen, da es sich um vertrauliche Unternehmensinformationen handelt. Vielleicht steckt sogar Absicht dahinter und die Übernahme des Textes ist unerwünscht (es gäbe eigentlich auch andere Lösungen, aber diese hier hat den Vorteil sehr effizient zu sein ;-). Mal schauen, ich probiere die Hersteller des PDFs zu kontaktieren...

Gruss,

Yann


als Antwort auf: [#40789]

Text aus PDF extrahieren

JakeyM
Beiträge gesamt:

4. Nov 2013, 08:58
Beitrag # 7 von 8
Beitrag ID: #519269
Bewertung:
(3102 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
hey ich suche auch einen weg text aus pdf rauszuhohlen... bis jetzt war ich allerdings noch relativ unerfolgreich. habe nur http://pdftoword.pro/ gefunden aber das vermischt die texte aus dem pdf irgendwie :/

weiss sonst jemand was?

danke :)


als Antwort auf: [#40789]

Text aus PDF extrahieren

klasinger
Beiträge gesamt: 1671

4. Nov 2013, 09:50
Beitrag # 8 von 8
Beitrag ID: #519274
Bewertung:
(3074 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

Acrobat XI leistet beim Textexport keinen schlechten Dienste (bin mir gerade auch nicht sicher ob das eingangs erwähte Acrobat 5 überhaupt sauber mit Identity-H umgehen kann, ein Text mit den Reader XI könnte Aufklärung verschaffen). Es gibt auch ein paar Alternativen, bspw. PdfGrabber, kann man mal im Internet suchen.
Wenn dabei jedoch schon alles zerschossen ist, dann liegt der Grund i.R. in der PDF-Datei und deren Erstellung. Bei falschen Font-Encoding oder den oben erwähnten Leerzeichen wird es kribbeliger. Eine Neuerstellung hilft manchmal, aber meist geht nur den Weg über OCR halbwegs sauber.


als Antwort auf: [#519269]
X