Connect failed: Connection timed out

[GastForen PrePress allgemein PDF in der Druckvorstufe Vergleich und Aussortierung gleicher PDF-Inhalte

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Themen
Beiträge
Moderatoren
Letzter Beitrag

Vergleich und Aussortierung gleicher PDF-Inhalte

snowpixel
Beiträge gesamt: 94

22. Jun 2017, 14:11
Beitrag # 1 von 13
Bewertung:
(4826 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo verehrte Forenprofis!

Ich versuche mich kurz zu fassen.
Bei laufenden Katalogproduktionen kommt es hin und wieder mal vor, dass erzeugte DruckPDFs versehentlich gleichen Seiteninhalt bei unterschiedlichen Dokument-Benamungen haben. D.h.
z.B.
Dokument ABC_002_003 mit Seiteninhalt Modestrecke
Dokument XYZ_004_005 aber gleicher Inhalt wie ABC

Das kommt vor, wenn verschiedene Mitarbeiter den gleichen Bogen bearbeiten und bei der PDF-Ausgabe nicht auf die korrekte Benamung achten.

Die Druckerei richtet sich nach den PDF-Benamungen und so könnte der Fall eintreten, dass im Katalog identische Seiten gedruckt werden. Bisher ist das zum Glück im Vorfeld entdeckt worden, aber bei einigen tausend Seiten kann das doch irgendwann mal durchrutschen.

Nun sind wir auf der Suche nach einer geeigneten Software, die die Seiteninhalte vergleicht und ungewünschte Dubletten herausfiltert. Leider sind wir nicht wirklich fündig geworden, da z.B. Gemini u.ä. nur wirklich komplett identische Dokumente findet, so dass schon eine uneinheitliche Uhrzeitangabe in der Kopfzeile dazu führt, gleichinhaltliche PDFs als NICHT identisch zu definieren.
Wünschenswert wäre eine Lösung die den gesamten Auslieferungsordner im Stapel nach diesen potentiellen Fehlerquellen durchforstet und etwaige Vorkommen aussortiert.

Vielleicht gibt es ja bei Euch ähnlich gelagerte Problemfälle und evtl. auch eine Lösung hierzu.

Vielen Dank schon mal vorab!
Sonnige Grüße aus München!
X

Vergleich und Aussortierung gleicher PDF-Inhalte

Thomas Richard
Beiträge gesamt: 19327

22. Jun 2017, 14:38
Beitrag # 2 von 13
Beitrag ID: #558186
Bewertung:
(4820 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Deinen eigentlichen Ansatz halte ich für nahezu unmöglich realisierbar? Ab welcher Differenz (Noch schnell ein Bild an die Richtige Stelle geschoben, einen Tippfehler korrigiert, ...?), soll da agiert werden? Gerade wenn mehrere im Team arbeiten kann ja auch mal 5 Minuten später die gleiche Datei mit einer aktuelleren Version eines Bildes entstehen. Soll sowas gefunden werden, wenn ja ab welcher Veränderung,, muss sie im sichtbaren Auschnitt leigen, oder sind die veränderten Pixel vllt, eh nur auf der anderen Hälfte der Doppelseite zu sehen, ...?

Antwort auf: Das kommt vor, wenn verschiedene Mitarbeiter den gleichen Bogen bearbeiten und bei der PDF-Ausgabe nicht auf die korrekte Benamung achten.

Dann würde ich da ansetzen und Die Benamung automatisieren, sprich der PDF Name wird per Script aus dem Inhalt und einer eindeutigen Kennung erzeugt. Dann kann schonmal kein falscher Name mehr auftauchen, und es wären nur noch die Versionen
ABC_002_003 14:37:27
und die
ABC_002_003 14:38:15
abzugleichen.


als Antwort auf: [#558184]

Vergleich und Aussortierung gleicher PDF-Inhalte

Thomas Richard
Beiträge gesamt: 19327

22. Jun 2017, 14:41
Beitrag # 3 von 13
Beitrag ID: #558187
Bewertung:
(4818 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
###nachtrag: Was evtl ginge, wäre den Dokumentnamen und die Pagina, und was sonst noch als Alleinstellungsmerkmal eines PDFs in Frage kommt, in die Metas des PDFs zu schreiben und unter OS X eine Spotlightsuche auf identische Metas loszujagen. Sollte in jedem Fall effizienter sein, als tatsächlich alle PDFs aufs letzte Byte abzusuchen.


als Antwort auf: [#558186]

Vergleich und Aussortierung gleicher PDF-Inhalte

snowpixel
Beiträge gesamt: 94

22. Jun 2017, 15:05
Beitrag # 4 von 13
Beitrag ID: #558189
Bewertung:
(4810 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
hallo Thomas,

danke für die schnelle Antwort…!
Deinen Ansatz kann ich verstehen, setzt aber auch voraus, dass die "richtigen" Seiten auch "richtig" benannt werden. Da aber versehentlich "richtige" Seiten falsch benamt wurden, wird mir die Suche nach Metadaten (die ja dann folglich auch nicht richtig sind) kein Ergebnis liefern.
Die PDFs müssten eigentlich nach "Bildinhalten" abgegrast werden und wenn ABC.pdf und XYZ.pdf das gleiche Seitenlayout beinhalten, dann sollte ein, wie-auch-immer-Workflow, Alarm schlagen.
Da die Katalogproduktion noch very old school in XPress 6.5 erstellt wird (man traut sich´s gar nicht sagen) ist die Übernahme des Namen vom Quelldokument nicht immer konstant zuverlässig und wird z.Teil noch händisch eingetragen… Das macht´s dann auch so gefährlich.

Grüße,
Olaf


als Antwort auf: [#558187]

Vergleich und Aussortierung gleicher PDF-Inhalte

snowpixel
Beiträge gesamt: 94

22. Jun 2017, 15:15
Beitrag # 5 von 13
Beitrag ID: #558190
Bewertung:
(4804 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
###auch noch ein Nachtrag.
Hab das mit der Pagina in den Metadaten erst jetzt verstanden…sorry…
Wie bekommt man das sauber und möglichst geschmeidig hin, da ja leider jeder zuzügliche Step im Worklflow zeitlich problematisch werden kann…
Danke!


als Antwort auf: [#558189]

Vergleich und Aussortierung gleicher PDF-Inhalte

Thomas Richard
Beiträge gesamt: 19327

22. Jun 2017, 15:39
Beitrag # 6 von 13
Beitrag ID: #558191
Bewertung:
(4801 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Werden die PDFs gedruckt oder exportiert?

Hier laufen diverse Heliosworkflows die mit den Imageservermöglichkeiten die Seitennummern und Dokumetnamen zugeteilt bekommen.

Ansonsten mal nach Helferlein wie OutputFactory oder Callas’ made to print googeln.


als Antwort auf: [#558190]

Vergleich und Aussortierung gleicher PDF-Inhalte

snowpixel
Beiträge gesamt: 94

22. Jun 2017, 15:59
Beitrag # 7 von 13
Beitrag ID: #558192
Bewertung:
(4796 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
…die PDFs werden exportiert. Leider ist es auch so, dass die Quelldokumente im Seitenlayout nicht nach Paginas angelegt sind. Heisst halt dann Musterseite A 1 und ist letztendlich eine Seite im Doppelseitenformat. Es hapert ja schon an solchen Dingen. Ich denke, da hilft dann auch kein MadeToPrint o.ä. …?


als Antwort auf: [#558191]

Vergleich und Aussortierung gleicher PDF-Inhalte

Ralf Hobirk
Beiträge gesamt: 5961

22. Jun 2017, 16:28
Beitrag # 8 von 13
Beitrag ID: #558193
Bewertung:
(4788 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Grundsätzliche Frage: Werden die Dokumente von verschiedenen Leuten angelegt oder hat das eine Person in der Hand, während die anderen nur an diesen Dokumenten arbeiten?


als Antwort auf: [#558192]

Vergleich und Aussortierung gleicher PDF-Inhalte

Thomas Richard
Beiträge gesamt: 19327

22. Jun 2017, 16:56
Beitrag # 9 von 13
Beitrag ID: #558194
Bewertung:
(4784 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Antwort auf: Heisst halt dann Musterseite A 1 und ist letztendlich eine Seite im Doppelseitenformat. Es hapert ja schon an solchen Dingen. Ich denke, da hilft dann auch kein MadeToPrint o.ä. …?

Mit Verlaub: Der Fisch stinkt vom Kopf.

Wenn da bei den Dokumenten schon keine saubere Ordnung herrscht, muss man sich nicht wundern wenn hinten Kuddelmuddel raus kommt.


als Antwort auf: [#558192]

Vergleich und Aussortierung gleicher PDF-Inhalte

Polylux
Beiträge gesamt: 1774

22. Jun 2017, 20:19
Beitrag # 10 von 13
Beitrag ID: #558195
Bewertung:
(4773 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Hallo snowpixel,

klingt jetzt total Banane, aber ich würde wenn der Katalog druckfertig ist, einen Satz auf dem Laserdrucker ausdrucken und jemanden die Seiten einzeln durchblättern lassen und dabei vorwiegend auf die Seitenzahlen achten lassen.

Klingt total Oldschool und nach dem letzten Jahrhundert - ist es auch.
Aber unter den Voraussetzungen...
Chaos in den Musterseiten, veraltete Software, unterschiedliche Arbeitsweisen.

Wenn es Kataloge mit diesem Seitenumfang werden wie beschrieben, kann mein Lösungsvorschlag auch noch mitfinanziert werden.

Oder man geht das ganze Ding von vorne an und sucht systematisch nach einer praktikablen Herangehensweise von Anfang an. Vielleicht ja mit einem Softwareupdate - da gibts bestimmt dann auch neue Möglichkeiten.

Viele Grüße


als Antwort auf: [#558194]

Vergleich und Aussortierung gleicher PDF-Inhalte

Polylux
Beiträge gesamt: 1774

22. Jun 2017, 20:28
Beitrag # 11 von 13
Beitrag ID: #558196
Bewertung:
(4772 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Eine Alternative fällt mir noch ein. Es gibt Software, welche Bilder an Hand der Motive vergleicht um Dubletten zu finden. Dabei lässt sich der Grad der Ähnlichkeit je nach Software in Prozentschritten einstellen.

1. Also jede Seite als Bild abspeichern.
2. Den Ordner mit den Bildern der Software vorlegen
3. Bei gefundenen sehr hohen Ähnlichkeiten die PDF-Seiten kontrollieren.

Wie sich das letztendlich bei Euch automatissieren lässt, kann ich nicht sagen.

Ein Beispiel für solch eine Software wäre SimilarImage https://tn123.org/simimages/

Viel Glück


als Antwort auf: [#558195]

Vergleich und Aussortierung gleicher PDF-Inhalte

snowpixel
Beiträge gesamt: 94

23. Jun 2017, 08:41
Beitrag # 12 von 13
Beitrag ID: #558198
Bewertung:
(4702 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
guten Morgen aus München!

Vielen Dank für die Beiträge - und in der Tat - der Fisch stinkt schon mächtig ;)
Leider haben wir keinen Einfluss auf die Kundenvorgaben und müssen aus den Gegebenheiten das beste machen… Aber wie so oft, den Letzten beissen die Hunde…

Die beschriebenen Lösungsvorschläge sind aber - gemessen an dem schwindligen Gesamtkonzept- durchaus gangbare Wege.
Herzlichen Dank an alle Beteiligten!

Beste Grüße,
Olaf


als Antwort auf: [#558194]

Vergleich und Aussortierung gleicher PDF-Inhalte

Thomas Richard
Beiträge gesamt: 19327

23. Jun 2017, 12:52
Beitrag # 13 von 13
Beitrag ID: #558205
Bewertung:
(4653 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Ich bleibe dabei, dass die Untersuchung (optisch, semantisch sichtbarer Seiteninhalt als auch Codebasiert), zu viele Unwägbarkeiten aufweist, die meiner Erfahrung nach in der täglichen Katalogproduktion auftreten, als dass das sinnvoll weiterzuverfolgen wäre.

M.E. wäre im ersten Schritt eine assistierte, wenn nicht völlig automatisierte Dateinamenvergabe anzustreben. Darüber hinaus wäre per Befüllung mit Metadaten oder eben eine auf die Pagina begrenzte Untersuchung der PDFs ein gangbarer Ansatz.

Ich habe z.B. Jahre lang mit dem PDFmark 'pagelabel' dafür gesorgt, dass meine Einzelseiten PDFs mit übereinstimmender Pagina im Namen, in den Metas und im Seiteninhalt daherkamen.

Die Möglichkeiten PDFmarks einzuschleusen (siehe PDF- und Acrobat Bibel[1] und pdfmark Reference Manual [2]), haben in Zeiten der direkten PDFerzeugung aber leider deutlich nachgelassen.

[1] ftp://ftp.buerliag.ch/...26%2520PDF-Bibel.pdf
[2] http://www.adobe.com/...pdfmarkreference.pdf


als Antwort auf: [#558198]
X