hilfdirselbst.ch
Facebook Twitter gamper-media

PlugIns, XTensions und Knowhow: Publishing-Worker.com

WickBlau
Beiträge: 43
11. Aug 2016, 15:53
Beitrag #1 von 4
Bewertung:
(1374 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Unfindbarer PDF-Text


Hallo, zusammen!

Ich würde gern wissen, ob/wie man »unfindbaren« PDF-Text umwandeln kann, so dass er normal (per STRG-F) findbar ist.

Situation: Angelieferte PDF-Datei, Inhalt: Text, keine Bilder. Der Großteil der Texte ist nicht findbar, einzelne Wörter darin aber sehr wohl. Und zwar all diejenigen Wörter, die kursiv gesetzt sind – selbst, wenn sie einzeln inmitten unfindbarer Wörter stehen.

Kurios: Der unfindbare Text ist editierbar. Ich kann z. B. zusätzlichen Text in einen bestehenden Satz eintippen. Dieser zusätzliche Text dann ist wiederum nicht findbar ...

Fragen: Ist diese PDF-Textbesonderheit erklärbar? Und wie könnte man den gesamten Text findbar machen?

Tools: Acrobat X Pro, PitStop Pro

Danke,
WickBlau
Top
 
X
olaflist p
Beiträge: 1303
12. Aug 2016, 09:41
Beitrag #2 von 4
Beitrag ID: #551923
Bewertung:
(1300 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Unfindbarer PDF-Text


Wähle mal bitte allen Text aus (Apfel-A bzw. Strg-A) und füge ihn in eine Textprogramm ein.

Wie sieht der Textteil aus, den Du nicht finden kannst? Buchstabensalat o. ä.? Dann ist das sog. "Encoding" für diese Texte nicht ausreichend, um die Buchstaben korrekt zu ermitteln(für Suche, Textrauskopieren, etc.)

Je nachdem kann man das Reparieren oder nicht. (Gerne Beispiel-Datei posten, oder an mich direkt unter olaf AT druemmer DOT com)

Die Vorschlaghammermethode ist anderenfalls, mit OCR zu arbeiten (wie man das normalerweise bei gescannntem Text machen würde).

Olaf
--
Olaf Druemmer | Geschäftsführer
callas software gmbh | www.callassoftware.com
axaio software GmbH | www.axaio.com
als Antwort auf: [#551913] Top
 
WickBlau
Beiträge: 43
13. Aug 2016, 10:35
Beitrag #3 von 4
Beitrag ID: #551937
Bewertung:
(1195 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Unfindbarer PDF-Text


Antwort auf [ olaflist ] Wie sieht der Textteil aus, den Du nicht finden kannst?

Klötzchensalat ... Ausnahme: die kursiven Wörter.

Beispieldatei uploaden ist aus rechtlichen Gründen leider keine Option.

Hm, Encoding sagst du ...

Ich habe interessanterweise inzwischen eine (textlich) aktualisierte PDF-Datei erhalten, bei der sich der Text ganz »normal« verhält. Könnte man im Vergleich (Hex-Editor oder so) feststellen, was in den beiden Dateien unterschiedlich eingestellt ist?
als Antwort auf: [#551923] Top
 
olaflist p
Beiträge: 1303
13. Aug 2016, 11:08
Beitrag #4 von 4
Beitrag ID: #551938
Bewertung:
(1186 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Unfindbarer PDF-Text


Zitat Ich habe interessanterweise inzwischen eine (textlich) aktualisierte PDF-Datei erhalten, bei der sich der Text ganz »normal« verhält. Könnte man im Vergleich (Hex-Editor oder so) feststellen, was in den beiden Dateien unterschiedlich eingestellt ist?


Ja, könnte man, wenn man kann. Etwas Wissen über PDF-interne Datenstrukturen wäre da sehr nützlich.

Da Du die Dateien ja nicht herausgeben darfst, kannst Du ja mal folgendes machen:

- Acrobat Pro (Version 9 bis CC 2015) starten, betreffendes PDF öffnen, Preflight starten, im Preflight Fenster recht oben auf "Optionen" klicken und dort im Aufklappmenü "Interne PDF-Struktur anzeigen" aufrufen
- es öffnet sich ein Fenster, das die interne PDF-Datenstruktur darstellt (eine ziemlich umfangreiche und unübersichtliche Baumstruktur);
- dort unter Page -> Resources -> Font mal die Einträge unter Font näher anschauen und zwischen den PDFs vergleichen.
- Interessant sind besonders die Einträge "Encoding", "Differences" und/oder "ToUnicode" (jeweils sofern vorhanden; jeweils aufklappen, sofern möglich)


Ich schätze, Dein Samstagnachmittag ist nun gerettet, und Du wirst keine Langeweile haben müssen ... ;-)


Olaf
--
Olaf Druemmer | Geschäftsführer
callas software gmbh | www.callassoftware.com
axaio software GmbH | www.axaio.com
als Antwort auf: [#551937] Top
 
X