FLOSS-Anwendungen für OCR-Scan?

List overview All Threads
Download

newer

older

Antragspaket München zu Open Source

Fwd: DIGITALISIERUNG AN SCHULEN –...

Roland Hummel

22 Oct 2020 22 Oct '20

4:28 p.m.

Hallo,

ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:

"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten

a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.

Für b) gibt es zumindest mit https://github.com/tesseract-ocr schon eine Grundlage, die Zuverlässigkeit ist allerdings noch gering und es gibt kein GUI."

Hat jemand für die genannten Kriterien vielleicht einen Hinweis?

Gruß und Danke Roland

Attachments:

OpenPGP_0xBE135DCD5A22CEFB.asc (application/pgp-keys — 7.4 KB)
OpenPGP_signature.sig (application/pgp-signature — 840 bytes)

Show replies by date

Henning Thielemann

22 Oct 22 Oct

4:38 p.m.

On Thu, 22 Oct 2020, Roland Hummel wrote:

...

ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:

"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten

a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.

ScanTailor und neuer ScanTailorAdvanced übernehmen a) und c).

Übrigens nehme ich auch sehr gerne jbig2enc, um Schwarz-Weiß-Dokumente anschließend sehr kompakt zum komprimieren. Auf die JBIG-Kompression bin ich ausgerechnet durch David Kriesels Vortrag über einen schwerwiegenden Fehler in der JBIG-Implementierung von XEROX gestoßen. Bei jbig2enc habe ich aber noch keine Probleme beobachtet.

Michael Ebner

5:13 p.m.

Am 22.10.20 um 16:38 schrieb Henning Thielemann:

...

On Thu, 22 Oct 2020, Roland Hummel wrote:

...
ich hatte neulich eine Anfrage, die ich mangels persönlichem Bedarf an OCR-Software schlecht beantworten konnte, daher wollte ich mal in die Runde fragen:

"Es wäre fantastisch, wenn es eine FLOSS-Anwendung gäbe, die aus eingescannten Dokumenten

a) Verzerrungen entfernt b) eine zuverlässige, mehrsprachige Texterkennung durchführt und c) Text, Hintergrund und Kopierartefakte trennt, damit auch schlecht eingescannte Texte für einen Ausdruck vorbereitet werden können.

ScanTailor und neuer ScanTailorAdvanced übernehmen a) und c).

Übrigens nehme ich auch sehr gerne jbig2enc, um Schwarz-Weiß-Dokumente anschließend sehr kompakt zum komprimieren. Auf die JBIG-Kompression bin ich ausgerechnet durch David Kriesels Vortrag über einen schwerwiegenden Fehler in der JBIG-Implementierung von XEROX gestoßen. Bei jbig2enc habe ich aber noch keine Probleme beobachtet.

Zu b) verwende ich tesseract seit vielen Jahren.

-- Michael Ebner

Stephan

4:48 p.m.

Hallo Roland,

...

Für b) gibt es zumindest mit https://github.com/tesseract-ocr schon eine Grundlage, die Zuverlässigkeit ist allerdings noch gering und es gibt kein GUI."

was die GUI angeht, gibt es gscan2pdf (http://gscan2pdf.sourceforge.net/). Intern wird tesseract und unpaper verwendet.

Viele Grüße

Stephan

Dr. Michael Stehmann

23 Oct 23 Oct

9:13 a.m.

Hallo,

sofern die Scans als PDF vorliegen, ist OCRmyPDF [0] ein hübsches Tool. Es ist in Python(3) geschrieben und damit plattformunabhängig.

Es bettet einen "Textlayer" in das Dokument ein, sodass man anschließend Copy-and-Paste machen kann.

Man kann sich auch den Text als solchen ausgeben bzw. in eine Datei schreiben lassen. Auch der Erhalt des Originaldokuments ist möglich.

Auch dieses Tool nutzt tesseract.

Allerdings ist es ein Konsolentool. Ich habe hierzu auch ein GUI (ebenfalls in Python3) geschrieben, allerdings, da noch nicht ganz fertig, noch nicht veröffentlicht.

Der bisherige praktische Einsatz gab zu Klagen keinen Anlass.

Mit freundlichem Gruß Michael (St.)

[0] https://packages.debian.org/search?suite=all&searchon=names&keywords... https://www.heise.de/download/product/ocrmypdf

Roland Hummel

24 Oct 24 Oct

12:53 p.m.

Hallo Stephan, Michael Ebner und Michael Stehmann,

danke vielmals für Eure konkreten Hinweise. Mir fiel in diesem Zusammenhang mal wieder auf wie schön es ist, hinsichtlich komplexerer Anfragen nicht immer mit (Such)Maschinen reden zu müssen.

On 10/23/20 9:13 AM, Dr. Michael Stehmann wrote:

...

sofern die Scans als PDF vorliegen, ist OCRmyPDF [0] ein hübsches Tool. ... Allerdings ist es ein Konsolentool. Ich habe hierzu auch ein GUI (ebenfalls in Python3) geschrieben, allerdings, da noch nicht ganz fertig, noch nicht veröffentlicht.

[0] https://packages.debian.org/search?suite=all&searchon=names&keywords... https://www.heise.de/download/product/ocrmypdf

@Michael Stehmann: Ich würde mich freuen, wenn Du die Veröffentlichung Deines OCRmyPDF-GUIs dann ggf. auch hier mitteilen würdest.

Danke! Roland

Dr. Michael Stehmann

26 Oct 26 Oct

3:09 p.m.

Hallo Roland,

Dein Posting war motivierend. Das Programm (der Wrapper für OCRmyPDF) ist in Version 0.1.1 einschließlich deutscher Lokalisation fertig.

Jetzt "nur noch" testen und publizieren. Ich werde dann hier einen Link bekanntgeben.

Dann noch ein Debian Projektmitglied mit Upload-Rechten finden, der es packt und hierzu noch eine Desktop-Integration schreibt. Dann wird es vielleicht bald in "experimental" und später in "sid" und "bullseye" ("testing") zu finden sein.

Der "Smoketest" hat ergeben, dass es auch unter "buster" ("stable") läuft.

Für Nicht-GNU/Linux-Systeme ist möglicherweise an einer Stelle der Pfad zu ocrmypdf anzupassen.

Bis Bald!

Gruß Michael

1424

Age (days ago)

1428

Last active (days ago)

fsfe-de@lists.fsfe.org

6 comments

5 participants

tags (0)

participants (5)

Dr. Michael Stehmann
Henning Thielemann
Michael Ebner
Roland Hummel
Stephan