Text aus PDF extrahieren

[Gast] Foren Programme Web/Internet PDF Grundlagen / Web / eForms Text aus PDF extrahieren

Web/Internet - Webdesign, eForms

Themen

Beiträge

Moderatoren

Letzter Beitrag

PDF Grundlagen / Web / eForms

3530

13498

erich.vogt

14. Mär 2024, 11:19

kei_Ahnig

Yann Borg

Beiträge gesamt: 337

23. Jun 2003, 20:44
Beitrag # 1 von 8
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

eigentlich kein Problem in Verbindung mit ungeschützten PDFs: mit dem Textasuwahl-Werkzeug ein Bereich auswählen, kopieren und irgendwo einfügen. Oder einfacher über die Exportfunktion als ASCII-Text.

Aber leider geht es offensichtlich nicht mit alle PDF-Dateien: ich habe hunderte von PDFs die laut Dokumentzusammenfassung aus der Anwendung FOP 0.20.1 erstellt worden sind bei denen beide geschilderten "Extrahier" Methoden nicht funktionieren. Es wird zwar etwas kopiert, was auch eingefügt wird, aber definitiv Inhaltlich anders zusammengestellt ist: sehr viele Leerzeichen, hin- und wieder ein Sonderzeichen, mehr nicht. Das gleiche passiert wenn ich den Text exportiere.

Die Dokumentenschriften sind Grösstenteils als "Identity-H" kodiert aber eingebettet. Das Touch-Up Werkzeug ist nicht anwendbar "Diese Seite konnte nicht analysiert werden". Das Textbearbeitungswerkzeug aus PitStop Professional 5.0.4 hilft auch nicht weiter.

Konfiguration: Mac OS X 10.x & 9.x mit Acrobat 5.0.5.

Ideen?

Vielen Dank und Gruss,

Yann

Text aus PDF extrahieren

Haeme Ulrich

Beiträge gesamt: 3102

23. Jun 2003, 21:20
Beitrag # 2 von 8
Beitrag ID: #40798
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Das dürfte sehr schwierig werden, weil schlicht die Struktur-Infos fehlen in der Datei. Wir hatten mal eine ähnliche Aufgabe gestellt, wiesen sie nach diversenen Tests - auch via PostScript - als nur unbefriedigend lösbar zurück.

Herzliche Grüsse
Haeme Ulrich
http://www.ulrich-media.ch
-
Attraktive Schulungen unter
http://www.media-college.ch

als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym

Beiträge gesamt: 22827

23. Jun 2003, 21:43
Beitrag # 3 von 8
Beitrag ID: #40799
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo Häme,

auch Adobe Reader 6 hilft nicht weiter. Einzig die Sonderzeichen von kopiertem Text werden als Bullets angezeigt.

Upsala, ich sitze in der Klemme. Gibt es kein Wunder-Plug-In der die Aufgabe lösen könnte? Meine einzige Hoffnung (Ausser wir bekommen die PDFs nochmal -- was ich bezweifle).

Danke und Gruss,

Yann

als Antwort auf: [#40789]

Text aus PDF extrahieren

erich.vogt

Beiträge gesamt: 484

23. Jun 2003, 23:21
Beitrag # 4 von 8
Beitrag ID: #40811
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo Zusammen

ich müsste die PDF's mal sehen. Wir haben sehr viel erfahrung im Bereich Datenkonvertierung.

Wenn ich die PDF's gesehen habe kann ich Dir auch den Lösungs oder Preisansatz für die Lösung geben. Je nach Analyse.

Gruss Erich
________________________________________
Vogt Solutions
Erich Vogt

mailto:erich.vogt@vogtsolutions.com
http://www.vogtsolutions.com

als Antwort auf: [#40789]

Text aus PDF extrahieren

Wolfgang Reszel

Beiträge gesamt: 4170

23. Jun 2003, 23:32
Beitrag # 5 von 8
Beitrag ID: #40815
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

die besagten PDFs stammen evtl. aus einer Konvertierung mittels Ghostscript, welches TrueType-Fonts so gut wie immer umkodiert, damit der Zeichenvorrat mit Postscript zusammenarbeitet. Die neuste Version von Ghostscript ist da zwar nicht mehr ganz so wild beim umkodieren, doch nützt das bei bereits geschriebenen PDFs recht wenig. Ich habe allerdings schon öfters gelesen, dass viele aktuelle OCR-Programme eine Möglichkeit bieten PDFs z.B. in Word-Dateien umzuwandeln, indem die Bildschirmausgabe einfach durch die Zeichenerkennung gejagt wird.

Wolfgang

als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym

Beiträge gesamt: 22827

26. Jun 2003, 14:57
Beitrag # 6 von 8
Beitrag ID: #41335
Bewertung:
(4442 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

vielen Dank für das input. Leider kann ich zu diesem Zeitpunkt kein PDF zeigen, da es sich um vertrauliche Unternehmensinformationen handelt. Vielleicht steckt sogar Absicht dahinter und die Übernahme des Textes ist unerwünscht (es gäbe eigentlich auch andere Lösungen, aber diese hier hat den Vorteil sehr effizient zu sein ;-). Mal schauen, ich probiere die Hersteller des PDFs zu kontaktieren...

Gruss,

Yann

als Antwort auf: [#40789]

Text aus PDF extrahieren

JakeyM

Beiträge gesamt:

4. Nov 2013, 08:58
Beitrag # 7 von 8
Beitrag ID: #519269
Bewertung:
(3102 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

hey ich suche auch einen weg text aus pdf rauszuhohlen... bis jetzt war ich allerdings noch relativ unerfolgreich. habe nur http://pdftoword.pro/ gefunden aber das vermischt die texte aus dem pdf irgendwie :/

weiss sonst jemand was?

danke :)

als Antwort auf: [#40789]

Text aus PDF extrahieren

klasinger

Beiträge gesamt: 1671

4. Nov 2013, 09:50
Beitrag # 8 von 8
Beitrag ID: #519274
Bewertung:
(3074 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Hallo,

Acrobat XI leistet beim Textexport keinen schlechten Dienste (bin mir gerade auch nicht sicher ob das eingangs erwähte Acrobat 5 überhaupt sauber mit Identity-H umgehen kann, ein Text mit den Reader XI könnte Aufklärung verschaffen). Es gibt auch ein paar Alternativen, bspw. PdfGrabber, kann man mal im Internet suchen.
Wenn dabei jedoch schon alles zerschossen ist, dann liegt der Grund i.R. in der PDF-Datei und deren Erstellung. Bei falschen Font-Encoding oder den oben erwähnten Leerzeichen wird es kribbeliger. Eine Neuerstellung hilft manchmal, aber meist geht nur den Weg über OCR halbwegs sauber.

als Antwort auf: [#519269]

Aktuell

InDesign / Illustrator

axaio MadeToPrint Server unterstützt Adobe InDesign Server 2024

| 27.11.2023

Weitere Events

Neuste Foreneinträge

Mein Tagesausflug ins Land CorelDraw

App Store: zu viele Sprachen werden aufgelistet

Eizo Monitorkalibrierung auf Windows

Fußnoten zu Endnoten konvertieren

Mehrfach geschichtete und übereinander gelagerte PDFs bereinigen

Platzierte Vektorgrafiken skalieren

SMS ab Server senden? Wie geht das?

WebShare Verzeichnisse im SharePoint erstellen

Buchsrabensteuerung

Klickbare Links zu Seiten in einem Buch aus extern erzeugtem Index erstellen

Weitere Stellenangebote