Hallo Hauke,
OCR-Aktionen dieser Größenordnung werden von Verlagen oder Instituten mit High-End-Software durchgeführt, da sie zum einen nur einmal diese OCR durchführen und zum anderen die Qualität der Ausgabe sehr hoch sein muss. Fehlerraten von 10-15% sind da indiskutabel, eher wahrscheinlich werden 2-5% erwartet. Dabei sollte die Software auch die Schriftenerkennung durchführen, damit Fraktur auch Fraktur bleibt. Zu diesem Zweck muss eine ähnliche Type vorhanden sein, was allerdings bei den unterschiedlichsten Frakturschriften, die nicht unbedingt alle in den Fotosatz transformiert oder digital vektorisiert wurden, schwierig ist.
Die einzige Software, die mir dazu bekannt ist, ist Adobe Acrobat Capture 3.x, die in unterschiedlichen Lizenzen erhältlich ist. Die kleinste Lizenz ist die Personal Edition und ist auch nicht gerade billig.
Der Vorteil: Wo die Texterkennung funktioniert, wird auch Text ersetzt, wo die Erkennung fehlerhaft war, bleibt der Scan erhalten und eine manuelle oder automatische Korrektur kann durchgeführt werden.
herzliche Grüße,
Christoph Grüder
als Antwort auf: [#68052]