Der Vorschlag mit dem Copyshop ist hier glaube ich der am ehesten und am kostenguenstigsten zielfuehrende. Zumindest bessere Copyshops haben Maschinen, die es gestatten die Vorlage (idealerweise) als PDF abzulegen, grundsaetzlich kann man bei entsprechenden Maschinen auch gleich das OCR miterledigen lassen.
Ich hatte kuerzlich die OCR-Software von Abbyy zu evaluieren und war ueberrascht, dass (bei halbwegs sauberen Vorlagen) die Fehlerquote sehr nahe bei 0 Prozent lag.
Sollte die Kopier-Scan-Maschine kein OCR eingebaut haben (oder kein gutes), sollte man fuer ueberschaubares Geld Abbyy-Software beschaffen koennen. Wichtig: bei der Software-Konfiguration immer bestmoeglich (nicht schnellstmoeglich) einstellen.
Auch die in Acrobat 8 Pro eingebaute OCR-Funktion ist sehr ordentlich, aberr nicht so fein konfigurierbar wie spezielle OCR-Loesungen.
Ganz wichtig fuer's Scannen: der Scan muss so gut wie moeglich erfolgen, damit es die OCR-Software nicht so schwer hat, also moeglichst plan und sauber scannen, gute Aufloesung (mind. 300 ppi), eher Graustufen als Bitmap. Das bedeutet, dass man das Buch aufschneiden sollte, um es durch die Dokumentenzufuehrung eines entsprechenden Geraetes jagen zu koennen.
Seitenartefakte (Seitenzahl, Lebene Kolumnentitel, etc.) sollten man mit dem Beschneidewerkzeug in Acrobat ausblenden.
Im OCR-Ergebnis (wenn man die PDF-Datei als RTF wegspeichert) wird man allerdings in jedem Fall noch mit so manchem unzutreffendem Zeilenumbruch und uebrig gebliebenem Silbentrennstrich zu tun haben - es bleibt also auf jeden Fall etwas Handarbeit erforderlich. Auf eine evtl. moegliche Textformaterkennung (Schriftart, Fett/Kursiv, Schriftgroesse, etc.) wuerde ich verzichten, bzw. einfach alles einheitlich in der Basis-Formatierung auszeichnen, und dann Ueberschriften etc. nachformatieren. Zu klaerende Fragen: welche Rolle spielen Grafiken, Bilder, Tabellen, u.a.e, sprich: alles was nicht Fliesstext ist - da darf man sich bei einem solchen Scan-/OCR-Prozess eher weniger echte Hilfestellung erwarten (wenn man denn das Ganze spaeter wieder als Druckvoralge braucht).
Am besten naehert man sich dem Thema an, indem man ein paar Seiten probeweise verarbeitet (hier reicht evtl. eine sehr gute Fotokopie einzelner Seiten, dann muss man das Buch nicht gleich zerschneiden).
Da ein Copyshop Auskunft darueber geben koennen sollte. was ein Scan pro Seite kostet, sind auch die Kosten gut abzuschaetzen. Bei einem einmaligen Auftrag fuer ein einzelnes Buch glaube ich nicht, dass spezialisierte Scan-Dienstleister im Preis mithalten koennen - die sind meist an Auftraegen interessiert, wo es um hunderttausende von Seiten geht..
Olaf Druemmer
als Antwort auf: [#327241]