Hallo,
ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:
"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten
a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.
Für b) gibt es zumindest mit https://github.com/tesseract-ocr schon eine Grundlage, die Zuverlässigkeit ist allerdings noch gering und es gibt kein GUI."
Hat jemand für die genannten Kriterien vielleicht einen Hinweis?
Gruß und Danke Roland
On Thu, 22 Oct 2020, Roland Hummel wrote:
ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:
"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten
a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.
ScanTailor und neuer ScanTailorAdvanced übernehmen a) und c).
Übrigens nehme ich auch sehr gerne jbig2enc, um Schwarz-Weiß-Dokumente anschließend sehr kompakt zum komprimieren. Auf die JBIG-Kompression bin ich ausgerechnet durch David Kriesels Vortrag über einen schwerwiegenden Fehler in der JBIG-Implementierung von XEROX gestoßen. Bei jbig2enc habe ich aber noch keine Probleme beobachtet.
Am 22.10.20 um 16:38 schrieb Henning Thielemann:
On Thu, 22 Oct 2020, Roland Hummel wrote:
ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:
"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten
a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.
ScanTailor und neuer ScanTailorAdvanced übernehmen a) und c).
Übrigens nehme ich auch sehr gerne jbig2enc, um Schwarz-Weiß-Dokumente anschließend sehr kompakt zum komprimieren. Auf die JBIG-Kompression bin ich ausgerechnet durch David Kriesels Vortrag über einen schwerwiegenden Fehler in der JBIG-Implementierung von XEROX gestoßen. Bei jbig2enc habe ich aber noch keine Probleme beobachtet.
Zu b) verwende ich tesseract seit vielen Jahren.
Hallo Roland,
Für b) gibt es zumindest mit https://github.com/tesseract-ocr schon eine Grundlage, die Zuverlässigkeit ist allerdings noch gering und es gibt kein GUI."
was die GUI angeht, gibt es gscan2pdf (http://gscan2pdf.sourceforge.net/). Intern wird tesseract und unpaper verwendet.
Viele Grüße
Stephan
Hallo,
sofern die Scans als PDF vorliegen, ist OCRmyPDF [0] ein hübsches Tool. Es ist in Python(3) geschrieben und damit plattformunabhängig.
Es bettet einen "Textlayer" in das Dokument ein, sodass man anschließend Copy-and-Paste machen kann.
Man kann sich auch den Text als solchen ausgeben bzw. in eine Datei schreiben lassen. Auch der Erhalt des Originaldokuments ist möglich.
Auch dieses Tool nutzt tesseract.
Allerdings ist es ein Konsolentool. Ich habe hierzu auch ein GUI (ebenfalls in Python3) geschrieben, allerdings, da noch nicht ganz fertig, noch nicht veröffentlicht.
Der bisherige praktische Einsatz gab zu Klagen keinen Anlass.
Mit freundlichem Gruß Michael (St.)
[0] https://packages.debian.org/search?suite=all&searchon=names&keywords... https://www.heise.de/download/product/ocrmypdf
Hallo Stephan, Michael Ebner und Michael Stehmann,
danke vielmals für Eure konkreten Hinweise. Mir fiel in diesem Zusammenhang mal wieder auf wie schön es ist, hinsichtlich komplexerer Anfragen nicht immer mit (Such)Maschinen reden zu müssen.
On 10/23/20 9:13 AM, Dr. Michael Stehmann wrote:
sofern die Scans als PDF vorliegen, ist OCRmyPDF [0] ein hübsches Tool. ... Allerdings ist es ein Konsolentool. Ich habe hierzu auch ein GUI (ebenfalls in Python3) geschrieben, allerdings, da noch nicht ganz fertig, noch nicht veröffentlicht.
[0] https://packages.debian.org/search?suite=all&searchon=names&keywords... https://www.heise.de/download/product/ocrmypdf
@Michael Stehmann: Ich würde mich freuen, wenn Du die Veröffentlichung Deines OCRmyPDF-GUIs dann ggf. auch hier mitteilen würdest.
Danke! Roland
Hallo Roland,
Dein Posting war motivierend. Das Programm (der Wrapper für OCRmyPDF) ist in Version 0.1.1 einschließlich deutscher Lokalisation fertig.
Jetzt "nur noch" testen und publizieren. Ich werde dann hier einen Link bekanntgeben.
Dann noch ein Debian Projektmitglied mit Upload-Rechten finden, der es packt und hierzu noch eine Desktop-Integration schreibt. Dann wird es vielleicht bald in "experimental" und später in "sid" und "bullseye" ("testing") zu finden sein.
Der "Smoketest" hat ergeben, dass es auch unter "buster" ("stable") läuft.
Für Nicht-GNU/Linux-Systeme ist möglicherweise an einer Stelle der Pfad zu ocrmypdf anzupassen.
Bis Bald!
Gruß Michael