Texterkennung mit Tesseract und OCRFeeder unter Ubuntu

Veröffentlicht am: 10. Oktober 2014

Ihr seid auf der Suche nach einem kostenlosen Texterkennungsprogramm für Ubuntu? Dann schaut euch mal die Kombination Tesseract und OCRFeeder an, die ich im Einsatz habe.
Ich zeige euch zudem noch, wie ihr das installiert.

Es gibt einige gute und kostenlose Texterkennungssoftware für Ubuntu. Ich habe mich da für Tesseract entschieden, das ursprünglich in den 1980ern bei HP entwickelt und vor einigen Jahren an Google übergeben wurde. Hier läuft es unter einer freien Apache-Lizenz.

Tesseract ist ein reines Kommandozeilenprogramm. Es gibt einige Frontends und Aufsätze, die gut mit Tesseract zusammenarbeiten und diese mächtige Software bedienfreundlicher machen. Der OCRFeeder ist so ein Aufsatz.

OCRFeeder Oberfläche mit im Hintergrund arbeitenden Tesseract

Installation

Als erstes installiert ihr Tesseract – und zwar auch gleich mit dem deutschen Sprachmodul. Tesseract ist bereits im offiziellen Ubuntu-Repository vorhanden. Öffnet ein Terminalfenster und gebt folgenden Befehl ein:

sudo apt-get install tesseract-ocr tesseract-ocr-deu

Das war es schon. Jetzt ist der OCRFeeder dran:

sudo apt-get install ocrfeeder

Der OCRFeeder wurde bei mir zwar installiert, die graphische Oberfläche ließ sich aber weder über die Kommandozeile noch aus dem Dash aufrufen. Da die Software in Python geschrieben ist, kann es sein, dass ihr das Paket python-imaging nachinstallieren müsst, um OCRFeeder zum Laufen zu bekommen:

sudo apt-get install python-imaging

Unter einem LXDE Desktop, wie ihn Lubuntu verwendet, versteckt sich der OCRFeeder unter „Büro“.
In der Kommandozeile ruft man ihn einfach über OCRFeeder auf.

Auch wenn mir persönlich Tesseract mit dem OCRFeeder in seiner Funktionalität völlig ausreicht, lohnt es sich, auch andere Kandidaten und Alternativen zu testen.

Eine auch sehr mächtige Texterkennungssoftware mit langer Tradition ist Cuneiform, das von der russischen Firma Cognitive Forms entwickelt wird. Cuneiform könnt ihr auch als Basis im OCRFeeder integrieren.
Ein weiteres, graphische Frontend ist YAGF.

Bitte beachten Sie: die Informationen in diesem Artikel wurden zum Zeitpunkt seiner Erstellung nach bestem Wissen und Gewissen zusammengetragen, aufbereit und niedergeschrieben.
Diese können heute, abhängig vom Zeitpunkt der Veröffentlichung und des behandelnden Themas, überholt und ungültig sein.
Es obliegt den Lesern, diese Inhalte mit dem aktuellen Wissensstand abzugleichen.

Artikel online seit: 11 Jahren 2 Monaten 7 Tagen
Letzte Änderung: 04.04.2023

Texterkennung mit Tesseract und OCRFeeder unter Ubuntu

Installation

Anzeigen von related Videos bei Youtube deaktivieren

Shortcodes Ultimate – die beste Effektsammlung für WordPress

Lars Mielke

Aktuelle Beiträge

Frohe Weihnachten und einen Guten Rutsch

WordPress Sicherheit: All-Inkl Scanner mit false positive bei WP Optimize Plugin

Wenn ein Zurück keine Option ist – von Clint Eastwood lernen

Warum 30 N Gould St in Sheridan, Wyoming für mich ein Dealbreaker ist

Was mich die Arbeit mit der KI bisher gelehrt hat

Kategorien

Empfohlenes Webhosting

Newsletter

Frohe Weihnachten und einen Guten Rutsch

WordPress Sicherheit: All-Inkl Scanner mit false positive bei WP Optimize Plugin

Wenn ein Zurück keine Option ist – von Clint Eastwood lernen