[GastForen PrePress allgemein PDF in der Druckvorstufe Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Themen
Beiträge
Moderatoren
Letzter Beitrag

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

t-kittel
Beiträge gesamt: 254

28. Sep 2011, 13:46
Beitrag # 1 von 6
Bewertung:
(3743 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Text- u. PDF-Profis,

ich suche nach einer Lösung, wie man alle Texte zweier PDFs schnell u. effektiv miteinander vergleichen kann. Natürlich haben pixelbasierte Vergleichstools immer den Vorteil, dass auch in Pfade gewandelte Schriften optisch verglichen werden können. Dennoch möchte ich hier mal die Frage in den Raum werfen, ob vielleicht bereits Acrobat's Preflightfunktionen, die pdfToolbox oder andere Software, eine schnellere und noch besser zu automatisierende Lösung bieten? Ich könnte mir eine Art Prüfsumme (ähnlich MD5) vorstellen, welche aus der Gesamtzeichenanzahl, der Summe der ASCII-Codes aller verwendeten Zeichen (oder so) und einem Algorhythmus gebildet wird, so dass sie einmalig wird. Nach Summenbildung könnten einfach die beiden Prüfsummen miteinander verglichen und eine eindeutige Aussage getroffen werden, dass die Texte in beiden PDFs inhaltlich exakt dieselben sind – und zwar unabhängig von verwendeten Schriftarten, Schriftgrößen und evtl. enthaltenen Bildern. Damit dieser Vergleich auch mit PDFs funktioniert, welche an zwei unterschiedlichen Tagen (Stichwort "Ausgabedatum") unverändert ausgegeben wurden, müsste sich die Prüfsummenbildung nur auf Texte innerhalb der Trimbox einschränken lassen.

Gibt es bereits Werkzeuge für eine solche Art von Textvergleichen innerhalb PDF oder Workarounds, z.B. per Textexport und Vergleich mit Hilfe von Textprogrammen?
...oder haltet ihr dies generell für eine schwachsinnige Idee und ein Tool, welches die Welt nicht braucht???

MfG
Thomas
X

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

A.Min
Beiträge gesamt: 8

29. Sep 2011, 20:07
Beitrag # 2 von 6
Beitrag ID: #481347
Bewertung:
(3678 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Äh, ganz so einfach wird das nicht klappen. ASCII taugt auf jeden Fall nicht, Unicode muß es schon sein. Und dann nur eine Prüfsumme über den ganzen Text? Wenn die dann verschieden ist, was fast immer so sein wird, weiß man ja überhaupt nicht was und wo verschieden ist...
Noch schlimmer die Prüfsumme kann ganz leicht trotz identischer Texte verschieden sein (z.B. durch geänderte Trennstriche oder unterschiedlich extrahierte Spaces).

Man kann den Textvergleich mit Acrobat machen oder mit einigen einfachen Freeware Tools oder mit unserem PDiff... Schnell sind die Lösungen alle :-)

Im allgemeinen ist es beim reinen Textexport immer sehr unübersichtlich, die Stellen in der PDF wiederzufinden. Besser sind da Tools, die die Diffs zusätzlich in der PDF markieren.


als Antwort auf: [#481212]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

drerol74
Beiträge gesamt: 498

30. Sep 2011, 17:23
Beitrag # 3 von 6
Beitrag ID: #481405
Bewertung:
(3608 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo Thomas,

vor dem gleichen Problem stehe ich auch öfters: Zwei PDFs, hat sich der Text geändert?

Ich vergleiche die PDFs dann (mangels einer praktikablen Alternative) direkt in Acrobat. Dort ist im Dialog von „Dokumente vergleichen“ auch ein eigener Hacken für: „Nur Text vergleichen“.

Funktioniert allerdings nicht immer optimal. Es werden auch völlig identische Textstellen markiert. Der Kommentar sieht dann folgend aus:

---
Text neu: „xyz“
Text alt: „xyz“
Die folgenden Attribute von Text wurden geändert: Füllfarbe
---

Und dass obwohl beide 100K sind.

Also kein reiner Textvergleich. Mehr Einstellungsmöglichkeiten im Vorfeld gibt es meines Wissens auch nicht. Bei umfangreichen Dokumenten kann die Überprüfung dann doch recht mühsam werden.

Eine gute Lösung würde mich auch interessieren.

@A.Min
Gibts für PDiff auch eine Testversion?

Schöne Grüße
Roland


als Antwort auf: [#481212]
(Dieser Beitrag wurde von drerol74 am 30. Sep 2011, 17:28 geändert)

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

A.Min
Beiträge gesamt: 8

30. Sep 2011, 19:49
Beitrag # 4 von 6
Beitrag ID: #481426
Bewertung:
(3579 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf [ drerol74 ] @A.Min
Gibts für PDiff auch eine Testversion?


Ja, es gibt eine Testversion von PDiff - sie kann unter http://www.csci.de/pdiff/demo angefordert werden.


als Antwort auf: [#481405]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

drerol74
Beiträge gesamt: 498

30. Sep 2011, 21:53
Beitrag # 5 von 6
Beitrag ID: #481442
Bewertung:
(3557 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Danke!


als Antwort auf: [#481426]

Schneller PDF-Textvergleich: Prüfsumme für verwendete(n) Zeichen(numfang)?

t-kittel
Beiträge gesamt: 254

3. Okt 2011, 21:35
Beitrag # 6 von 6
Beitrag ID: #481524
Bewertung:
(3439 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
@A.Min
Vielen Dank für den Link! Nach Lesen der Kurzbeschreibung denke ich, dass die Software meine derzeitigen Ansprüchen voll erfüllen würde.

MfG
Thomas


als Antwort auf: [#481442]
X

Aktuell

PDF / Print
300_PDF20

Veranstaltungskalender

Hier können Sie Ihre Anlässe eintragen, welche einen Zusammenhang mit den Angeboten von HilfDirSelbst.ch wie z.B. Adobe InDesign, Photoshop, Illustrator, PDF, Pitstop, Affinity, Marketing, SEO, Büro- und Rechtsthemen etc. haben. Die Einträge werden moderiert freigeschaltet. Dies wird werktags üblicherweise innert 24 Stunden erfolgen.

pdf-icon Hier eine kleine Anleitung hinsichtlich Bedeutung der auszufüllenden Formularfelder.

Veranstaltungen
01.12.2022

Online
Donnerstag, 01. Dez. 2022, 10.00 - 10.45 Uhr

Webinar

Die drei ColorLogic-Programme ZePrA, CoPrA und ColorAnt sind in neuen Versionen mit vielen neuen Funktionen im Jahr 2022 veröffentlich worden oder werden in Kürze veröffentlicht (ColorAnt 9). In unserem ca. 45 minütigen kostenlosen Webinar zeigen wir Ihnen einige dieser neuen Funktionen mit dem Schwerpunkt auf Automatisierung und Produktivitätssteigerungen.

Ja

Organisator: Impressed GmbH

Kontaktinformation: Silvia Noack, E-Mailsnoack AT impressed DOT de

https://www.impressed.de/schulung.php?c=sDetail&sid=311

ColorLogic Update-Webinar ZePrA 10, CoPrA 9 und ColorAnt 9
Veranstaltungen
02.02.2023

Prozesse optimieren und effizient gestalten

Zürich
Donnerstag, 02. Feb. 2023, 08.00 - 10.00 Uhr

Digitalisierung, Webauftritt

Digitalisierung mitgestalten - Worauf kommt es an? Wie wichtig ist die Webseite? Webseite mit Word Press? Interne Prozesse optimieren

Ja

Organisator: B. Isik - SNF Academy

Kontaktinformation: Birol Isik, E-Mailinfo AT bkcc DOT ch

https://digitalisierung-heute.ch/digitalisierung-informationstag-schweiz/