Softwarebüro Krekeler:
OCR-Texterkennungssoftware im Vergleichstest: OmniPage überzeugt mit höchster Erkennungsgenauigkeit
Königs Wusterhausen – Die Digitalisierung von Papierdokumenten ist heute ein unverzichtbarer Bestandteil vieler Arbeitsprozesse. Doch wie gut erkennen die aktuellen OCR-Softwarelösungen die Texte in diesen Dokumenten? Das Softwarebüro Krekeler (www.krekeler.de), Entwickler der Dokumentenmanagementsoftware (DMS) Office Manager DMS, hat sieben bekannte OCR-Programme einem Vergleichstest unterzogen, um ihre Leistungsfähigkeit und Genauigkeit zu ermitteln.
„Wenn Papierdokumente gescannt oder fotografiert werden, stehen sie zunächst nur als Pixelbild zur Verfügung. Um die Daten darin zu erkennen, zu verarbeiten und eine Volltextsuche in den Dokumentenarchiven eines DMS zu ermöglichen, bedarf es der Texterkennung durch eine Optical Character Recognition-Software, kurz OCR. Diese Programme erkennen Zeichen in Bildmustern, fassen sie zu Wörtern zusammen und vergleichen sie mit Wörterbüchern, um automatische Korrekturen durchzuführen. Die Genauigkeit und Zuverlässigkeit der Texterkennung sind deshalb für Unternehmen von großer Bedeutung, um eine effiziente Datenverarbeitung und -suche zu gewährleisten“, erklärt Geschäftsführer Harald Krekeler.
Die getesteten OCR-Programme waren sowohl kommerzielle Lösungen, als auch eine Open-Source-Option und Cloud-basierte Dienste:
ABBYY FineReader for ScanSnap 5.5
ABBYY FineReader PDF 16
Kofax OmniPage 19.2
Microsoft Azure KI Vision (Cloud OCR)
Microsoft WinRT
Tesseract 5.3.3
Transym TOCR 5.1
Jedes dieser Programme wurde in drei Testrunden auf seine Fähigkeit getestet, Texte aus verschiedenen Dokumentenarten unter Berücksichtigung von Faktoren, wie der Erkennungsgenauigkeit und Layout-Interpretation, zu erkennen. Alle OCR-Programme wurden mit denselben digitalisierten Dokumenten unter den gleichen Bedingungen getestet, um objektive Ergebnisse zu erzielen.
Drei Testdokumente unterschiedlicher Schwierigkeitsgrade
Über die insgesamt drei Testdokumente informiert Harald Krekeler: „Zunächst haben wir die Lösungen an einem Testdokument mit sauberem, schwarzem Druck auf weißem Hintergrund angewandt. Die Herausforderung bestand hier in unterschiedlichen Schriftgrößen, einer eingefügten Tabelle sowie einem um 90 Grad gedrehten Text. Die zweite Vorlage war anspruchsvoller: Die auf der Rückseite eines Kontoauszuges in zweispaltigem Layout gedruckten AGB eines Kreditinstitutes mit vorhandenen Flecken und besonders kleiner Schrift als ein Beispiel für ein schlecht digitalisiertes Dokument. Beim dritten Testdokument handelte es sich um Fließtext aus einem Roman mit einigen Phantasiewörtern, bestehend aus 10 Seiten mit 2453 Wörtern.“
Während sich alle Kandidaten beim ersten Testdokument nahezu gleich gut schlugen, und sowohl ABBYY FineReader PDF 16 und Microsoft Azure KI Vision das Dokument komplett fehlerfrei erkannten, zeigten sich vor allem beim zweiten Testdokument - den AGB auf einem Kontoauszug - zum Teil deutliche Unterschiede hinsichtlich der Erkennungsgenauigkeit. „Besonders hervorzuheben ist die beinahe fehlerfreie Leistung von Kofax OmniPage 19.2 mit einer Erkennungsquote von 99,7%. OmniPage kam mit dem komplexen Layout sehr gut zurecht und hatte lediglich Schwierigkeiten, einen am Rand des Testdokuments quergeschriebenen, schwachen Text zu erkennen. Allerdings wurde dieser von keinem der getesteten OCR-Programme korrekt erkannt“, so Harald Krekeler.
Auch Microsoft Azure KI Vision und Transym TOCR 5.1 kamen mit dem schwierigen Dokument gut zurecht und zeigten gute Erkennungsquoten von je 99,3 %. Damit schlugen sie sich noch etwas besser als die beiden ABBYY-Versionen, die auf jeweils 99,0 % kamen. Positiv zu erwähnen: OmniPage, aber auch beide ABBYY-Versionen, haben die am Zeilenumbruch getrennten Wörter wieder korrekt zu einem Wort zusammengefügt.
„Etwas überrascht hat mich, dass die KI von Microsoft Azure Read Cloud-OCR/ICR das zweispaltige Layout völlig ignoriert hat. Dies kann zu weiteren Fehlern führen, weil die getrennten Wörter nicht mehr zusammengefügt werden können und der Satzbau für eine Phrasensuche verloren geht“, sagt Krekeler. Die meisten Schwierigkeiten mit dem absichtlich schlecht digitalisierten Testdokument hatte Tesseract 5.3.3, denn es offenbarte größere Schwächen bei der Erkennung von Sonderzeichen und des Layouts. Mit einer Erkennungsgenauigkeit von 94,9 % bildete die Open-Source-Lösung hier das Schlusslicht.
Mit dem dritten Testdokument – einem zehnseitigen Fließtext eines Romans – kamen wiederum alle OCR-Programme gut zurecht. Die Texterkennung war bei allen annähert fehlerfrei und nur bei einigen Sonderzeichen oder bei unbekannten Phantasiewörtern kam es zu kleineren Abweichungen.
Nach drei Testrunden positionierte sich damit Kofax OmniPages aufgrund seiner hohen Erkennungsgenauigkeit als Sieger vor Transym und den beiden ABBYY-Versionen. Microsoft Azure KI Vision und Microsoft Windows 11 WinRT boten solide Leistungen, wobei Letzteres als integrierte Lösung ab Windows 10 ohne zusätzliche Kosten hervorsticht. Die meisten Fehler in allen drei Testrunden zeigte Tesseract 5.3.3: „Obwohl Open-Source-Lösungen wie Tesseract eine wertvolle Ressource darstellen, sind sie möglicherweise nicht für alle Anwendungsfälle geeignet, insbesondere wenn es um komplexe Layouts und Sonderzeichen geht“, so Krekeler.
Die detaillierten Ergebnisse des OCR-Softwarevergleichs 2024 sind online unter www.officemanager.de/support/ocr/ocr-test.html verfügbar.