Connect failed: Connection timed out

[GastForen PrePress allgemein PDF in der Druckvorstufe Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Themen
Beiträge
Moderatoren
Letzter Beitrag

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

t-kittel
Beiträge gesamt: 254

28. Sep 2011, 13:46
Beitrag # 1 von 6
Bewertung:
(3819 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Text- u. PDF-Profis,

ich suche nach einer Lösung, wie man alle Texte zweier PDFs schnell u. effektiv miteinander vergleichen kann. Natürlich haben pixelbasierte Vergleichstools immer den Vorteil, dass auch in Pfade gewandelte Schriften optisch verglichen werden können. Dennoch möchte ich hier mal die Frage in den Raum werfen, ob vielleicht bereits Acrobat's Preflightfunktionen, die pdfToolbox oder andere Software, eine schnellere und noch besser zu automatisierende Lösung bieten? Ich könnte mir eine Art Prüfsumme (ähnlich MD5) vorstellen, welche aus der Gesamtzeichenanzahl, der Summe der ASCII-Codes aller verwendeten Zeichen (oder so) und einem Algorhythmus gebildet wird, so dass sie einmalig wird. Nach Summenbildung könnten einfach die beiden Prüfsummen miteinander verglichen und eine eindeutige Aussage getroffen werden, dass die Texte in beiden PDFs inhaltlich exakt dieselben sind – und zwar unabhängig von verwendeten Schriftarten, Schriftgrößen und evtl. enthaltenen Bildern. Damit dieser Vergleich auch mit PDFs funktioniert, welche an zwei unterschiedlichen Tagen (Stichwort "Ausgabedatum") unverändert ausgegeben wurden, müsste sich die Prüfsummenbildung nur auf Texte innerhalb der Trimbox einschränken lassen.

Gibt es bereits Werkzeuge für eine solche Art von Textvergleichen innerhalb PDF oder Workarounds, z.B. per Textexport und Vergleich mit Hilfe von Textprogrammen?
...oder haltet ihr dies generell für eine schwachsinnige Idee und ein Tool, welches die Welt nicht braucht???

MfG
Thomas
X

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

A.Min
Beiträge gesamt: 8

29. Sep 2011, 20:07
Beitrag # 2 von 6
Beitrag ID: #481347
Bewertung:
(3754 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Äh, ganz so einfach wird das nicht klappen. ASCII taugt auf jeden Fall nicht, Unicode muß es schon sein. Und dann nur eine Prüfsumme über den ganzen Text? Wenn die dann verschieden ist, was fast immer so sein wird, weiß man ja überhaupt nicht was und wo verschieden ist...
Noch schlimmer die Prüfsumme kann ganz leicht trotz identischer Texte verschieden sein (z.B. durch geänderte Trennstriche oder unterschiedlich extrahierte Spaces).

Man kann den Textvergleich mit Acrobat machen oder mit einigen einfachen Freeware Tools oder mit unserem PDiff... Schnell sind die Lösungen alle :-)

Im allgemeinen ist es beim reinen Textexport immer sehr unübersichtlich, die Stellen in der PDF wiederzufinden. Besser sind da Tools, die die Diffs zusätzlich in der PDF markieren.


als Antwort auf: [#481212]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

drerol74
Beiträge gesamt: 507

30. Sep 2011, 17:23
Beitrag # 3 von 6
Beitrag ID: #481405
Bewertung:
(3684 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Thomas,

vor dem gleichen Problem stehe ich auch öfters: Zwei PDFs, hat sich der Text geändert?

Ich vergleiche die PDFs dann (mangels einer praktikablen Alternative) direkt in Acrobat. Dort ist im Dialog von „Dokumente vergleichen“ auch ein eigener Hacken für: „Nur Text vergleichen“.

Funktioniert allerdings nicht immer optimal. Es werden auch völlig identische Textstellen markiert. Der Kommentar sieht dann folgend aus:

---
Text neu: „xyz“
Text alt: „xyz“
Die folgenden Attribute von Text wurden geändert: Füllfarbe
---

Und dass obwohl beide 100K sind.

Also kein reiner Textvergleich. Mehr Einstellungsmöglichkeiten im Vorfeld gibt es meines Wissens auch nicht. Bei umfangreichen Dokumenten kann die Überprüfung dann doch recht mühsam werden.

Eine gute Lösung würde mich auch interessieren.

@A.Min
Gibts für PDiff auch eine Testversion?

Schöne Grüße
Roland


als Antwort auf: [#481212]
(Dieser Beitrag wurde von drerol74 am 30. Sep 2011, 17:28 geändert)

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

A.Min
Beiträge gesamt: 8

30. Sep 2011, 19:49
Beitrag # 4 von 6
Beitrag ID: #481426
Bewertung:
(3655 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf [ drerol74 ] @A.Min
Gibts für PDiff auch eine Testversion?


Ja, es gibt eine Testversion von PDiff - sie kann unter http://www.csci.de/pdiff/demo angefordert werden.


als Antwort auf: [#481405]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

drerol74
Beiträge gesamt: 507

30. Sep 2011, 21:53
Beitrag # 5 von 6
Beitrag ID: #481442
Bewertung:
(3633 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Danke!


als Antwort auf: [#481426]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

t-kittel
Beiträge gesamt: 254

3. Okt 2011, 21:35
Beitrag # 6 von 6
Beitrag ID: #481524
Bewertung:
(3515 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
@A.Min
Vielen Dank für den Link! Nach Lesen der Kurzbeschreibung denke ich, dass die Software meine derzeitigen Ansprüchen voll erfüllen würde.

MfG
Thomas


als Antwort auf: [#481442]
X