Ihr seid auf der Suche nach einem kostenlosen Texterkennungsprogramm für Ubuntu? Dann schaut euch mal die Kombination Tesseract und OCRFeeder an, die ich im Einsatz habe.
Ich zeige euch zudem noch, wie ihr das installiert.
Es gibt einige gute und kostenlose Texterkennungssoftware für Ubuntu. Ich habe mich da für Tesseract entschieden, das ursprünglich in den 1980ern bei HP entwickelt und vor einigen Jahren an Google übergeben wurde. Hier läuft es unter einer freien Apache-Lizenz.
Tesseract ist ein reines Kommandozeilenprogramm. Es gibt einige Frontends und Aufsätze, die gut mit Tesseract zusammenarbeiten und diese mächtige Software bedienfreundlicher machen. Der OCRFeeder ist so ein Aufsatz.
Installation
Als erstes installiert ihr Tesseract – und zwar auch gleich mit dem deutschen Sprachmodul. Tesseract ist bereits im offiziellen Ubuntu-Repository vorhanden. Öffnet ein Terminalfenster und gebt folgenden Befehl ein:
sudo apt-get install tesseract-ocr tesseract-ocr-deu
Das war es schon. Jetzt ist der OCRFeeder dran:
sudo apt-get install ocrfeeder
Der OCRFeeder wurde bei mir zwar installiert, die graphische Oberfläche ließ sich aber weder über die Kommandozeile noch aus dem Dash aufrufen. Da die Software in Python geschrieben ist, kann es sein, dass ihr das Paket python-imaging nachinstallieren müsst, um OCRFeeder zum Laufen zu bekommen:
sudo apt-get install python-imaging
Unter einem LXDE Desktop, wie ihn Lubuntu verwendet, versteckt sich der OCRFeeder unter „Büro“.
In der Kommandozeile ruft man ihn einfach über OCRFeeder auf.
Auch wenn mir persönlich Tesseract mit dem OCRFeeder in seiner Funktionalität völlig ausreicht, lohnt es sich, auch andere Kandidaten und Alternativen zu testen.
Eine auch sehr mächtige Texterkennungssoftware mit langer Tradition ist Cuneiform, das von der russischen Firma Cognitive Forms entwickelt wird. Cuneiform könnt ihr auch als Basis im OCRFeeder integrieren.
Ein weiteres, graphische Frontend ist YAGF.