OCR-Software: Tesseract/FreeOCR(GUI)

Begonnen von grimes, 10. Januar 2009, 06:41:44

Vorheriges Thema - Nächstes Thema

grimes

OCR = Optical Character Recognition = Optische Zeichenerkennung
http://de.wikipedia.org/wiki/Texterkennung

Lange Zeit gab es für Windows kein vernüftiges Freeware-OCR-Programm.
Das hat sich mit Tesseract geändert. http://de.wikipedia.org/wiki/Tesseract
Tesseract wurde von Hewlett-Packard bis 1995 entwickelt und galt damals als eines der besten Texterkennungsprogramme.
Seit kurzem wird es von Google weiterentwickelt (für Google Books) und wurde unter Apache-Lizenz gestellt.
Tesseract ist ein reines Kommandozeilenprogramm ohne Layoutkontrolle und ohne Handschrifterkennung.
Recht einfach lässt sich das Programm für die deutsche Sprache anpassen.

Als graphische Benutzeroberfläche kann das freie Programm FreeOCR verwendet werden.
http://www.paperfile.net/
(hier auch download (aktuell: FreeOCR 3.0))
Vorraussetzung: .Net Framework V2.0
(Tesseract ist schon inbegriffen, muß also nicht gesondert heruntergeladen werden)
weitere Information: http://publicationes.de/freeocr.html
Die GUI ist extrem spartanisch ausgestattet und beschränkt sich auf das Notwendigste.
Meiner Meinung nach liefert Tesseract die besseren Ergebnisse verglichen mit gocr oder ocrad.


fooamp

So, wie ich den wikipedia-Artikel verstehe, kann es nur bedingt Fraktur und Altgriechisch überhaupt nicht. Gerade letzteres lassen sich die OCR-Hersteller gerne gut und teuer bezahlen. Nun, ich werde den Fortgang des Programms beobachten. Danke für die Vorstellung.

grimes

Fraktur: bedingt, weil nur deutsche Fraktur

Altgriechisch: Das gute an Tesseract ist, dass es trainierbar ist. Also hat irgendjemand die Software schon auf altgriechisch trainiert:
http://www.himeros.eu/



Die Qualität kann ich leider nicht ganz beurteilen. :crazy2:

fooamp

Oh - nochmals vielen Dank. Ich werde das Programm also nicht nur beobachten, sondern es mir mal näher ansehen!