[GastForen Programme Web/Internet PDF Grundlagen / Web / eForms Text aus PDF extrahieren

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Web/Internet - Webdesign, eForms
Themen
Beiträge
Moderatoren
Letzter Beitrag

Text aus PDF extrahieren

Yann Borg
Beiträge gesamt: 337

23. Jun 2003, 20:44
Beitrag # 1 von 8
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

eigentlich kein Problem in Verbindung mit ungeschützten PDFs: mit dem Textasuwahl-Werkzeug ein Bereich auswählen, kopieren und irgendwo einfügen. Oder einfacher über die Exportfunktion als ASCII-Text.

Aber leider geht es offensichtlich nicht mit alle PDF-Dateien: ich habe hunderte von PDFs die laut Dokumentzusammenfassung aus der Anwendung FOP 0.20.1 erstellt worden sind bei denen beide geschilderten "Extrahier" Methoden nicht funktionieren. Es wird zwar etwas kopiert, was auch eingefügt wird, aber definitiv Inhaltlich anders zusammengestellt ist: sehr viele Leerzeichen, hin- und wieder ein Sonderzeichen, mehr nicht. Das gleiche passiert wenn ich den Text exportiere.

Die Dokumentenschriften sind Grösstenteils als "Identity-H" kodiert aber eingebettet. Das Touch-Up Werkzeug ist nicht anwendbar "Diese Seite konnte nicht analysiert werden". Das Textbearbeitungswerkzeug aus PitStop Professional 5.0.4 hilft auch nicht weiter.

Konfiguration: Mac OS X 10.x & 9.x mit Acrobat 5.0.5.

Ideen?

Vielen Dank und Gruss,

Yann
X

Text aus PDF extrahieren

Haeme Ulrich
Beiträge gesamt: 3102

23. Jun 2003, 21:20
Beitrag # 2 von 8
Beitrag ID: #40798
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Das dürfte sehr schwierig werden, weil schlicht die Struktur-Infos fehlen in der Datei. Wir hatten mal eine ähnliche Aufgabe gestellt, wiesen sie nach diversenen Tests - auch via PostScript - als nur unbefriedigend lösbar zurück.

Herzliche Grüsse
Haeme Ulrich
http://www.ulrich-media.ch
-
Attraktive Schulungen unter
http://www.media-college.ch


als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym
Beiträge gesamt: 22827

23. Jun 2003, 21:43
Beitrag # 3 von 8
Beitrag ID: #40799
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Häme,

auch Adobe Reader 6 hilft nicht weiter. Einzig die Sonderzeichen von kopiertem Text werden als Bullets angezeigt.

Upsala, ich sitze in der Klemme. Gibt es kein Wunder-Plug-In der die Aufgabe lösen könnte? Meine einzige Hoffnung (Ausser wir bekommen die PDFs nochmal -- was ich bezweifle).

Danke und Gruss,

Yann


als Antwort auf: [#40789]

Text aus PDF extrahieren

erich.vogt
  
Beiträge gesamt: 484

23. Jun 2003, 23:21
Beitrag # 4 von 8
Beitrag ID: #40811
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Zusammen

ich müsste die PDF's mal sehen. Wir haben sehr viel erfahrung im Bereich Datenkonvertierung.

Wenn ich die PDF's gesehen habe kann ich Dir auch den Lösungs oder Preisansatz für die Lösung geben. Je nach Analyse.

Gruss Erich
________________________________________
Vogt Solutions
Erich Vogt

mailto:erich.vogt@vogtsolutions.com
http://www.vogtsolutions.com


als Antwort auf: [#40789]

Text aus PDF extrahieren

Wolfgang Reszel
Beiträge gesamt: 4170

23. Jun 2003, 23:32
Beitrag # 5 von 8
Beitrag ID: #40815
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

die besagten PDFs stammen evtl. aus einer Konvertierung mittels Ghostscript, welches TrueType-Fonts so gut wie immer umkodiert, damit der Zeichenvorrat mit Postscript zusammenarbeitet. Die neuste Version von Ghostscript ist da zwar nicht mehr ganz so wild beim umkodieren, doch nützt das bei bereits geschriebenen PDFs recht wenig. Ich habe allerdings schon öfters gelesen, dass viele aktuelle OCR-Programme eine Möglichkeit bieten PDFs z.B. in Word-Dateien umzuwandeln, indem die Bildschirmausgabe einfach durch die Zeichenerkennung gejagt wird.

Wolfgang


als Antwort auf: [#40789]

Text aus PDF extrahieren

Anonym
Beiträge gesamt: 22827

26. Jun 2003, 14:57
Beitrag # 6 von 8
Beitrag ID: #41335
Bewertung:
(4444 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

vielen Dank für das input. Leider kann ich zu diesem Zeitpunkt kein PDF zeigen, da es sich um vertrauliche Unternehmensinformationen handelt. Vielleicht steckt sogar Absicht dahinter und die Übernahme des Textes ist unerwünscht (es gäbe eigentlich auch andere Lösungen, aber diese hier hat den Vorteil sehr effizient zu sein ;-). Mal schauen, ich probiere die Hersteller des PDFs zu kontaktieren...

Gruss,

Yann


als Antwort auf: [#40789]

Text aus PDF extrahieren

JakeyM
Beiträge gesamt:

4. Nov 2013, 08:58
Beitrag # 7 von 8
Beitrag ID: #519269
Bewertung:
(3104 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
hey ich suche auch einen weg text aus pdf rauszuhohlen... bis jetzt war ich allerdings noch relativ unerfolgreich. habe nur http://pdftoword.pro/ gefunden aber das vermischt die texte aus dem pdf irgendwie :/

weiss sonst jemand was?

danke :)


als Antwort auf: [#40789]

Text aus PDF extrahieren

klasinger
Beiträge gesamt: 1671

4. Nov 2013, 09:50
Beitrag # 8 von 8
Beitrag ID: #519274
Bewertung:
(3076 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo,

Acrobat XI leistet beim Textexport keinen schlechten Dienste (bin mir gerade auch nicht sicher ob das eingangs erwähte Acrobat 5 überhaupt sauber mit Identity-H umgehen kann, ein Text mit den Reader XI könnte Aufklärung verschaffen). Es gibt auch ein paar Alternativen, bspw. PdfGrabber, kann man mal im Internet suchen.
Wenn dabei jedoch schon alles zerschossen ist, dann liegt der Grund i.R. in der PDF-Datei und deren Erstellung. Bei falschen Font-Encoding oder den oben erwähnten Leerzeichen wird es kribbeliger. Eine Neuerstellung hilft manchmal, aber meist geht nur den Weg über OCR halbwegs sauber.


als Antwort auf: [#519269]
X

Veranstaltungskalender

Hier können Sie Ihre Anlässe eintragen, welche einen Zusammenhang mit den Angeboten von HilfDirSelbst.ch wie z.B. Adobe InDesign, Photoshop, Illustrator, PDF, Pitstop, Affinity, Marketing, SEO, Büro- und Rechtsthemen etc. haben. Die Einträge werden moderiert freigeschaltet. Dies wird werktags üblicherweise innert 24 Stunden erfolgen.

pdf-icon Hier eine kleine Anleitung hinsichtlich Bedeutung der auszufüllenden Formularfelder.

Veranstaltungen
14.05.2024

Online
Dienstag, 14. Mai 2024, 10.00 - 10.30 Uhr

Webinar

Prozessoptimierung ist ein Teamsport! Keine Software und keine Maschine allein kann Ihnen helfen, die Effizienzpotenziale Ihres Betriebes maximal auszuschöpfen. Von der Auftragsannahme über die Vorstufe und den Druck bis hin zur Weiterverarbeitung – alles muss optimal ineinandergreifen. Apropos Weiterverarbeitung – in vielen Druckbetrieben fristet sie in Sachen Prozessoptimierung immer noch ein Schattendasein. Dabei liegen hier mittlerweile die größten Einsparpotenziale! In einem Webinar von Horizon und Impressed erfahren Sie, wie Sie diese Einsparungen realisieren können. Horizon, bekannt für innovative Lösungen in der Druckweiterverarbeitung, bietet mit iCE LiNK eine Workflowlösung für die Weiterverarbeitung. iCE LiNK überwacht, visualisiert und analysiert Produktionsabläufe und unterstützt bei der Wartung – damit immer alles reibungslos läuft. Den gleichen Anspruch hat der von Impressed entwickelte Impressed Workflow Server – er ist die smarte PDF-Workflow-Lösung für Druckereien, die Datenmanagement, Preflight und Produktionssteuerung übernimmt. Im Webinar zeigen Ihnen die Experten von Horizon und Impressed, wie beide Lösungen im Team die Effizienz und Produktivität Ihres Betriebes steigern können. Melden Sie sich am besten gleich an, wir freuen uns auf Sie! PS: Melden Sie sich in jedem Fall an – sollten Sie zum Termin verhindert sein, erhalten Sie die Aufzeichnung.

kostenlos

Ja

Organisator: Impressed / Horizon

https://www.impressed.de/schulung.php?c=sDetail&sid=327

Einsparpotenziale in der Weiterverarbeitung
Veranstaltungen
16.05.2024

Online
Donnerstag, 16. Mai 2024, 10.00 - 10.30 Uhr

Webinar

Komplizierte, kleinteilige Aufträge; alles sehr speziell; seit Jahren bewährte Prozesse – da können wir nichts standardisieren und automatisieren! Das sagen viele Großformatdrucker – aber stimmt das wirklich, ist dem tatsächlich so? Günther Business Solutions und Impressed treten in einem Webinar den Gegenbeweis an. Experten beider Unternehmen zeigen, wie Großformatdrucker vom Einsatz zweier bewährter Lösungen profitieren können: • von advanter print+sign von Günther Business Solutions, dem ERP-System für den Großformatdruck, dass alle Phasen der Wertschöpfung im Large Format Printing abdeckt • von Impressed Workflow Server, der smarten PDF-Workflow-Lösung für Druckereien, die Datenmanagement, Preflight und Produktionssteuerung übernimmt Über die Kombination beider Lösungen können Großformatdrucker ihre Prozesse mit modernen Workflows Schritt für Schritt automatisieren – und so zügig deutliche Zeit- und Kosteneinsparungen realisieren. Das Webinar sollten Sie sich nicht entgehen lassen – damit Sie keine Effizienzpotenziale mehr liegen lassen. Melden Sie sich am besten gleich an, wir freuen uns auf Sie! PS: Melden Sie sich in jedem Fall an – sollten Sie zum Termin verhindert sein, erhalten Sie die Aufzeichnung.

kostenlos

Nein

Organisator: Impressed / Günther Business Solutions

https://www.impressed.de/schulung.php?c=sDetail&sid=326

Und es geht doch: Automatisierung im Großformatdruck!