hallo zusammen,
ich bin mit dem im folgenden beschriebenen problem quasi schon bis kurz vor die ziellinie gekommen. aber es fehlt noch eine kleinigkeit. folgende vorgeschichte:
da ich mich gerne mit der historie der computer beschäftige, habe ich das archiv der ct-ausgaben von 1983-1989 als durchsuchbare pdfs vorliegen. der heise-verlag bot solches auf cd an. die eingescannten zeitschriften liegen im pdf-format vor und der textliche inhalt ist sowohl durchsuchbar, als auch per ausschneiden/kopieren anderweitig zu verwenden.
nun habe ich noch ein anderes "forschungsfeld", nämlich das der medima-werke, die mein großvater väterlicherseits in den 30ern des letzten jahrhunderts gründete (und die es in dieser form so nicht mehr gibt). aus den 70ern und 80ern liegen mir ein stapel der firmenzeitschrift "echo" vor, die ich nun genau so behandeln möchte, wie die ct ihre alten ausgaben.
also habe ich mich mit meiner konfiguration (mac pro 2006, os 10.6.7, 12gb ram), acrobat pro 9.4.2 und dem epson scanner 2480photo ans werk gemacht.
erste hürde: acrobat erkennt den scanner nicht. die recherche ergibt, daß ein twain-scanner vorliegen muss.
auf der epson-website gibt es einen solchen für os 10.6
zunächst ist die installation eine herausforderung, weil das installationsprogramm (immer noch im os9 design) ein zusätzliches verifizierungsprogramm startet und schon munter am basteln ist, bis os x dann meldet, dass man ein programm aus dem internet öffnet, und fragt, ob man das denn wirklich möchte. diese beiden vorgänge überscheiden sich wohl so ungeschickt, daß der installer jedesmal einfriert. zum glück ruft das installer aber nur weitere programme auf, die die eigentlich arbeit tun. hat man diese gefunden, geht das auch manuell.
sicherheitshalber rechner neu gestartet und - acrobat erkennt keinen treiber. der ist wohl für os x 10.6, aber nicht für os 10.6.6?!?
danach auf mein altes universal-scannerprogramm vue-scan zurückgegriffen und dort die ocr-option gefunden.
der erste versuch ist gut, die umlaute aber falsch. auch hier recherche mit dem ergebnis, daß eine sprachdatei geladen werden muss. nach download und parken unter /user/shared ist alles perfekt.
ab und an kommen minimale abweichungen vor, die sich aber leider nicht korrigieren lassen, da man auch mit acrobat pro nicht am text selbst schrauben kann. mit dem sogenanten "touch-up"-werkzeug kann man zwar die schreibmarke setzen und sieht auch bewegung, wenn man schreibt oder löscht. das scheint aber nur den (wo auch immer hinterlegten" ocr-text zu betreffen, nicht aber dargestellte "grafik" darüber.
meine frage nun: wo befindt sich der eigentliche ocr-text? wie ist der mit dem gescannten text (grafik) verbunden? wie kann man beide so bearbeiten, dass der angezeigte scan-text mit dem hinterlegten ocr-text identisch ist?
vielen dank im voraus und grüße
bernd