[GastForen Programme Web/Internet PDF Grundlagen / Web / eForms durchsuchbare pdf aus scan

  • Suche
  • Hilfe
  • Lesezeichen
  • Benutzerliste
Web/Internet - Webdesign, eForms
Themen
Beiträge
Moderatoren
Letzter Beitrag

durchsuchbare pdf aus scan

bernhard
Beiträge gesamt: 444

27. Mär 2011, 14:42
Beitrag # 1 von 6
Bewertung:
(5223 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
hallo zusammen,

ich bin mit dem im folgenden beschriebenen problem quasi schon bis kurz vor die ziellinie gekommen. aber es fehlt noch eine kleinigkeit. folgende vorgeschichte:

da ich mich gerne mit der historie der computer beschäftige, habe ich das archiv der ct-ausgaben von 1983-1989 als durchsuchbare pdfs vorliegen. der heise-verlag bot solches auf cd an. die eingescannten zeitschriften liegen im pdf-format vor und der textliche inhalt ist sowohl durchsuchbar, als auch per ausschneiden/kopieren anderweitig zu verwenden.
nun habe ich noch ein anderes "forschungsfeld", nämlich das der medima-werke, die mein großvater väterlicherseits in den 30ern des letzten jahrhunderts gründete (und die es in dieser form so nicht mehr gibt). aus den 70ern und 80ern liegen mir ein stapel der firmenzeitschrift "echo" vor, die ich nun genau so behandeln möchte, wie die ct ihre alten ausgaben.

also habe ich mich mit meiner konfiguration (mac pro 2006, os 10.6.7, 12gb ram), acrobat pro 9.4.2 und dem epson scanner 2480photo ans werk gemacht.

erste hürde: acrobat erkennt den scanner nicht. die recherche ergibt, daß ein twain-scanner vorliegen muss.
auf der epson-website gibt es einen solchen für os 10.6
zunächst ist die installation eine herausforderung, weil das installationsprogramm (immer noch im os9 design) ein zusätzliches verifizierungsprogramm startet und schon munter am basteln ist, bis os x dann meldet, dass man ein programm aus dem internet öffnet, und fragt, ob man das denn wirklich möchte. diese beiden vorgänge überscheiden sich wohl so ungeschickt, daß der installer jedesmal einfriert. zum glück ruft das installer aber nur weitere programme auf, die die eigentlich arbeit tun. hat man diese gefunden, geht das auch manuell.
sicherheitshalber rechner neu gestartet und - acrobat erkennt keinen treiber. der ist wohl für os x 10.6, aber nicht für os 10.6.6?!?

danach auf mein altes universal-scannerprogramm vue-scan zurückgegriffen und dort die ocr-option gefunden.
der erste versuch ist gut, die umlaute aber falsch. auch hier recherche mit dem ergebnis, daß eine sprachdatei geladen werden muss. nach download und parken unter /user/shared ist alles perfekt.

ab und an kommen minimale abweichungen vor, die sich aber leider nicht korrigieren lassen, da man auch mit acrobat pro nicht am text selbst schrauben kann. mit dem sogenanten "touch-up"-werkzeug kann man zwar die schreibmarke setzen und sieht auch bewegung, wenn man schreibt oder löscht. das scheint aber nur den (wo auch immer hinterlegten" ocr-text zu betreffen, nicht aber dargestellte "grafik" darüber.
meine frage nun: wo befindt sich der eigentliche ocr-text? wie ist der mit dem gescannten text (grafik) verbunden? wie kann man beide so bearbeiten, dass der angezeigte scan-text mit dem hinterlegten ocr-text identisch ist?

vielen dank im voraus und grüße
bernd
 
X

durchsuchbare pdf aus scan

Max Wyss
Beiträge gesamt: 532

27. Mär 2011, 19:00
Beitrag # 2 von 6
Beitrag ID: #467790
Bewertung:
(5188 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Der erste Schritt ist, ein halbwegs brauchbares Rasterbild zu erzeugen. Die Auflösung hierzu sollte 600 dpi nicht überschreiten. Dieses Rasterbild dann in ein PDF umwandeln, und dann Acrobat's OCR-Funktion einsetzen. Wenn diese OCR-Funktion etwas nicht erkennen kann, dann markiert sie das als "OCR Suspect", welcher dann bearbeitet werden kann. Suspect finden, und dann kann der versteckte Text bearbeitet werden (dies ist häufig notwendig, wenn Flecen oder Linien vorhanden sind).

Damit kann der Text durchsuchbar gemacht werden.

Der durchsuchbare Text ist in einer unsichtbaren Schicht abgelegt.

HTH.

Max Wyss.


als Antwort auf: [#467779]

durchsuchbare pdf aus scan

bernhard
Beiträge gesamt: 444

28. Mär 2011, 00:36
Beitrag # 3 von 6
Beitrag ID: #467805
Bewertung:
(5160 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
vielen dank für die detailllierte erklärung. hat super funktioniert. eine abschließende frage bitte noch: was tut man, wenn die OCR-funktion einen fehler nicht als solchen erkennt?

ich habe eine seite aus einer "Echo"-ausgabe eingescannt, auf der es um die geschichte der EDV bei Medima geht. dort habe ich spontan zwei fehler im OCR-text gefunden, die ich nachträglich nicht mehr beheben kann:

1) der einleitende Text ist unterstrichen und enthält das wort "Jubiläum". das große J geht nahtlos in die unterstreichung über und wird von der OCR-funktion als eine öffnende eckige klammer gelesen: "["
OCR findet das nicht suspekt, sondern korrekt. wenn ich im fertigen PDF anschließend nach "Jubiläum" suche, finde ich alle stellen, außer dieser einen.

2) im textblock "1968" befindet sich in der zweitletzten zeile das wort "AWOBA". OCR setzt zwischen dem ersten A und dem restlichen WOBA ein leerzeichen.

zum nachvollziehen, habe ich die fertige pdf-datei hier abgelegt:
http://www.be-sign.net/downloads/scan.pdf

kann man solche fehlerkennungen nachträglich ändern?
der weg über "OCR-Problemstellen finden" funktioniert jedenfalls nicht.

grüße
bernd
 


als Antwort auf: [#467790]

durchsuchbare pdf aus scan

bernhard
Beiträge gesamt: 444

12. Apr 2011, 11:41
Beitrag # 4 von 6
Beitrag ID: #468955
Bewertung:
(4951 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
habe ich das richtig verstanden, dass per ocr falsch erkannte texte nicht korrigierbar sind, wenn acrobat keine "OCR Suspect" markierung gesetzt hat?
wenn ja: gibt es ein werkzeug, mit dem man selbst entscheiden kann, was richtig und falsch ist? in diesem falle wäre ich nicht so gut beraten, die entscheidung dem acrobat zu überlassen...

danke und grüße
bernd
 


als Antwort auf: [#467790]

durchsuchbare pdf aus scan

taunus11
Beiträge gesamt: 608

12. Apr 2011, 12:47
Beitrag # 5 von 6
Beitrag ID: #468962
Bewertung:
(4933 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
Vielleicht hilft folgendes aus dem Netz:

Zitat Andrew_E_D_Clark@adobeforums.com

Re: Editting text from OCR Conversion

You can edit the text that is hidden behind the printed text, but the process is rather cumbersome.

Use the Touchup Text Tool to select the line of text that you wish to edit. Select all the text that is in the box. Right click and select 'Attributes'. There is a little box in the bottom left hand side of the Attributes dialog. Click this box and a colour palette will appear. Select a colour different from the printed one. For example, if the printed text is black, select Red. You will then be able to see the hidden searchable text and make the changes you require.

Bernd Alheit


als Antwort auf: [#468955]

durchsuchbare pdf aus scan

bernhard
Beiträge gesamt: 444

12. Apr 2011, 20:51
Beitrag # 6 von 6
Beitrag ID: #469015
Bewertung:
(4893 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen
hallo bernd,

vielen dank für den hinweis. das klingt richtig gut. habe es auch gleich mal mit meinem pdf probiert: text mit dem touchup-tool markiert und per rechtsklick aus dem kontextmenü die eigenschaften ausgwählt. leider bleibt die dialogbox leer - bis auf den hinweis, dass kein text ausgewählt sei...
ich werde mich aber mal auf die suche nach andrew e. d. clark machen und ihn nochmal fragen.

danke jedenfalls für den tipp und die anlaufstelle :-)

grüße
bernd
 


als Antwort auf: [#468962]
X