Ich bleibe dabei, dass die Untersuchung (optisch, semantisch sichtbarer Seiteninhalt als auch Codebasiert), zu viele Unwägbarkeiten aufweist, die meiner Erfahrung nach in der täglichen Katalogproduktion auftreten, als dass das sinnvoll weiterzuverfolgen wäre.
M.E. wäre im ersten Schritt eine assistierte, wenn nicht völlig automatisierte Dateinamenvergabe anzustreben. Darüber hinaus wäre per Befüllung mit Metadaten oder eben eine auf die Pagina begrenzte Untersuchung der PDFs ein gangbarer Ansatz.
Ich habe z.B. Jahre lang mit dem PDFmark 'pagelabel' dafür gesorgt, dass meine Einzelseiten PDFs mit übereinstimmender Pagina im Namen, in den Metas und im Seiteninhalt daherkamen.
Die Möglichkeiten PDFmarks einzuschleusen (siehe PDF- und Acrobat Bibel[1] und pdfmark Reference Manual [2]), haben in Zeiten der direkten PDFerzeugung aber leider deutlich nachgelassen.
[1]
ftp://ftp.buerliag.ch/...26%2520PDF-Bibel.pdf [2]
http://www.adobe.com/...pdfmarkreference.pdf