Hallo Text- u. PDF-Profis,
ich suche nach einer Lösung, wie man alle Texte zweier PDFs schnell u. effektiv miteinander vergleichen kann. Natürlich haben pixelbasierte Vergleichstools immer den Vorteil, dass auch in Pfade gewandelte Schriften optisch verglichen werden können. Dennoch möchte ich hier mal die Frage in den Raum werfen, ob vielleicht bereits Acrobat's Preflightfunktionen, die pdfToolbox oder andere Software, eine schnellere und noch besser zu automatisierende Lösung bieten? Ich könnte mir eine Art Prüfsumme (ähnlich MD5) vorstellen, welche aus der Gesamtzeichenanzahl, der Summe der ASCII-Codes aller verwendeten Zeichen (oder so) und einem Algorhythmus gebildet wird, so dass sie einmalig wird. Nach Summenbildung könnten einfach die beiden Prüfsummen miteinander verglichen und eine eindeutige Aussage getroffen werden, dass die Texte in beiden PDFs inhaltlich exakt dieselben sind – und zwar unabhängig von verwendeten Schriftarten, Schriftgrößen und evtl. enthaltenen Bildern. Damit dieser Vergleich auch mit PDFs funktioniert, welche an zwei unterschiedlichen Tagen (Stichwort "Ausgabedatum") unverändert ausgegeben wurden, müsste sich die Prüfsummenbildung nur auf Texte innerhalb der Trimbox einschränken lassen.
Gibt es bereits Werkzeuge für eine solche Art von Textvergleichen innerhalb PDF oder Workarounds, z.B. per Textexport und Vergleich mit Hilfe von Textprogrammen?
...oder haltet ihr dies generell für eine schwachsinnige Idee und ein Tool, welches die Welt nicht braucht???
MfG
Thomas