hilfdirselbst.ch
Facebook Twitter gamper-media

Eine Linkliste für Typographie | Publishing-Events

Rotkehlpieper p
Beiträge: 32
29. Jan 2004, 18:38
Beitrag #1 von 8
Bewertung:
(5817 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Hallo,

für ein kleines Projekt möchte ich ca. 150 Seiten mit Text in einer alten Frakturschrift einscannen und den Text nach OCR weiterbearbeiten. Als Software steht mir zur Zeit die neueste Version von Finereader (Win ME) zur Verfügung.

Hat vielleicht jemand Erfahrung mit diesen alten Schriften? Ist Scannen überhaupt möglich - oder ist die Zahl der Lesefehler sowieso viel zu hoch.

Vielen Dank für Hilfe,
B.

Top
 
X
Wolfgang Reszel  M 
Beiträge: 4170
29. Jan 2004, 23:42
Beitrag #2 von 8
Beitrag ID: #68105
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Hallo,

in der aktuellen Ausgabe der Zeitschrift c't wurde die CD "Meyers Großes Konverstations-Lexikon (1905-1909)" getestet. Es handelt sich dabei um die digitalisierte Fassung der originalen 20 Bände, welche ebenfalls in einer Frakturschrift gesetzt wurden. Im Testbericht steht, dass eigens dafür eine Software entwickelt wurde; es aber trotzdem noch zu Fehlererkennungen kam (f und s). Als Internetadresse wurde im Artikel www.digitale-bibliothek genannt.

Google liefert auch Interessantes:
http://www.google.com/search?q=ocr+fraktur

Wolfgang
als Antwort auf: [#68052] Top
 
Rotkehlpieper p
Beiträge: 32
30. Jan 2004, 17:44
Beitrag #3 von 8
Beitrag ID: #68278
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Hallo Wolfgang,

besten Dank für den Tipp. Gehe ich gleich los und besorge die Zeitschrift.

Google: Hätte ich auch ausprobieren können. Sorry.

Frohes Schaffen,
B.
als Antwort auf: [#68052] Top
 
Hauke
Beiträge: 3
19. Feb 2004, 23:34
Beitrag #4 von 8
Beitrag ID: #71366
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Es ist möglich. Ich hatte vor einigen Monaten mal ein Projekt mit dem Scan eines alten seltenen Buches von 1809, gesetzt in Fraktur (zu ca. 95 % Walbaum Fraktur, bis auf die unterschiedlichen ä, ö, ü, klein und Groß)angefangen. Ich hatte dazu FineReader 6 unter Win 2000 benutzt. Anfangs kommen natürlich viele Fehler, aber deshalb gibt es ja beim FineReader so eine Trainingsmöglichkeit bei der Zeichenerkennung. Wenn man die auch benutzt, kann man die Fehlerrate je nach Vorlage auf 10-15 % reduzieren. Natürlich kann das bei stark verschnörkelten Schriften auch höher sein.

Wie das mit FineReader 7 ist, habe ich mangels Zeit, noch nicht getestet.

Das erwähnte Lexikon wurde ja bestimmt nicht mit solchen »Laienprogrammen« wie FineReader odr Omnipage gescannt. Dazu sind bestimmt professionellere Geräte verwendet worden. Da mich das auch interessierte hatte ich auch schon mal nach mehr Infos diesbezüglich im Web gesucht, aber nichts informelles gefunden.

Gruß Hauke



als Antwort auf: [#68052] Top
 
Christoph Grüder S
Beiträge: 1929
20. Feb 2004, 07:51
Beitrag #5 von 8
Beitrag ID: #71378
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Hallo Hauke,

OCR-Aktionen dieser Größenordnung werden von Verlagen oder Instituten mit High-End-Software durchgeführt, da sie zum einen nur einmal diese OCR durchführen und zum anderen die Qualität der Ausgabe sehr hoch sein muss. Fehlerraten von 10-15% sind da indiskutabel, eher wahrscheinlich werden 2-5% erwartet. Dabei sollte die Software auch die Schriftenerkennung durchführen, damit Fraktur auch Fraktur bleibt. Zu diesem Zweck muss eine ähnliche Type vorhanden sein, was allerdings bei den unterschiedlichsten Frakturschriften, die nicht unbedingt alle in den Fotosatz transformiert oder digital vektorisiert wurden, schwierig ist.
Die einzige Software, die mir dazu bekannt ist, ist Adobe Acrobat Capture 3.x, die in unterschiedlichen Lizenzen erhältlich ist. Die kleinste Lizenz ist die Personal Edition und ist auch nicht gerade billig.
Der Vorteil: Wo die Texterkennung funktioniert, wird auch Text ersetzt, wo die Erkennung fehlerhaft war, bleibt der Scan erhalten und eine manuelle oder automatische Korrektur kann durchgeführt werden.

herzliche Grüße,
Christoph Grüder
als Antwort auf: [#68052] Top
 
Hauke
Beiträge: 3
20. Feb 2004, 13:43
Beitrag #6 von 8
Beitrag ID: #71454
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Ja, das da eine spezielle Software eingesetzt wird, hatte ich mir schon gedacht. Allerdings sollte ein entsprechender Bedarf an guter Software für diese Zwecke eigentlich auch bei Privatanwendern vorhanden sein. Ich selber habe ja einige sehr seltene Werke, deren Inhalt ich gerne digitalisieren würde, um so den Inhalt zu sichern. Der Beginn der Digitalisierung/Scannen von dem bereits erwähnten Buch aus dem Jahre 1819 mit rund 300 Seiten war dabei sozusagen ein Test bzw. Versuch, inwieweit das möglich ist. Anschließend wollte ich es neusetzen mit einer ähnlichen Type. Einen Freeware-Frakturfont (Walbaum-Fraktur) hatte ich auch gefunden. Andere Frakturfonts lassen sich auch finden, so das der Font nicht so das Problem ist, wenn man von der Auswahl / Erkennung des im Buch verwendeten mal absieht.
Sofern es nicht auch bald eine bessere Software auch für Privatanwender gibt, ist das halt eine Fleißarbeit für Leute mit Geduld und Zeit.

Die von der Digitalen Bibliothek für solche Bücher verwendeten Ansichts/Lesesoftware wäre auch eine gute Alternative zu einem PDF-eBook. Nur habe ich weder den Hersteller dieser Software, noch den Namen dieser software herausfinden können - falls das nicht eine Eigenentwicklung dieser Firma ist.

Gruß Hauke

als Antwort auf: [#68052] Top
 
Christoph Grüder S
Beiträge: 1929
20. Feb 2004, 14:01
Beitrag #7 von 8
Beitrag ID: #71457
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Hallo Hauke,

in welchem Format liegen denn diese Bücher vor? Mir sind nur das XML-Format von Microsoft und das PDF-eBook-Format von Adobe bekannt, mit denen Inhalte sowohl abgebildet als auch mit elektronischen Rechten (EBX-Encoding u.a.) ausgestattet werden können. Wenn es keines von beiden ist, könnte es eine eigene Lösung sein.

herzliche Grüße,
Christoph Grüder
als Antwort auf: [#68052] Top
 
Hauke
Beiträge: 3
20. Feb 2004, 14:23
Beitrag #8 von 8
Beitrag ID: #71463
Bewertung:
(5816 mal gelesen)
URL zum Beitrag
Beitrag als Lesezeichen

Frakturschrift/OCR


Die Bücher selbst sind in so einer Art von Datenbankformaten mit den Endungen: zum Beispiel: Index.htx , Index.plx , Index.set , Index.ttx , Index.wlx , sigel.lib , Text.dki , Tree.dka und Tree.dki, um mal einige zu nennen und einer Art Bilddatenbank: images.lib . Auf diese wird dann mit einer Art Browser zugegriffen. Dieser ist übrigens frei auf der Homepage der Digitalen Bibliothek zum Download erhältlich. Mit diesem wählt man dann das Betreffende Buch auf CD, oder wo auch immer das abgespeichert ist, aus und kann dann damit diese Art von ebook benutzen. Man sich das Buch übrigens auch in einer gewünschten Schrift anzeigen lassen, sofern man sie installiert hat und auch damit in der gewünschten Type ausdrucken lassen, entweder auf Papier oder in ein PDF. Allerdings nur maximal 250 Seiten auf einmal.

Gruß Hauke

als Antwort auf: [#68052] Top
 
X