Zum Blog

Mobilen Apps mittels Texterkennung (OCR) zu neuem Potential verhelfen

24. Juni 2019

Mobile Texterkennung OCR

Digitale Bilder, eingescannte Verträge und Belege oder wichtige Präsentationen und Dokumente im PDF-Format erschweren vielen von uns den Alltag. So lassen sich Dateien, die in diesen Formaten vorliegen, weder editieren noch durchsuchen oder weiterverarbeiten. Möchte man die Informationen dennoch nutzen, müssen diese zeitaufwendig abgetippt werden.

Eine Technik, die eine effektive und schnelle Lösung für diese Problematik verspricht, ist die automatisierte Texterkennung. Ziel des Ansatzes ist es, Zeichen, Wörter und ganze Sätze aus Büchern, Papierdokumenten, Bilddateien oder sonstigen physischen Aufschriften zu erkennen und daraus einen editierbaren Text zu erstellen. So lassen sich Belege, Verträge oder Bilder einfach einscannen, umwandeln und weiterverarbeiten. Diese Weiterverarbeitung kann beispielsweise genutzt werden, um Arbeitsprozesse zu optimieren, wie bspw. Personendaten schneller aufzunehmen oder um Blinden das “Lesen” eines Textes zu ermöglichen, mittels OCR und Text-to-Speech.

Um die praktische Technologie auch am Smartphone oder Tablet nutzen zu können, bedarf es einer mobilen OCR-Bibliothek und/oder Online Dienstes. Doch was kann OCR für Mobile wirklich und wie funktioniert die, auf mobilen Geräten noch nicht so verbreitete, Technologie?

Individuelle Softwareentwicklung gesucht?

Was ist Mobile OCR?

Die Abkürzung OCR steht für Optical Character Recognition und beschäftigt sich mit der automatisierten Text- und Zeichenerkennung in Dateien, digitalen Bildern sowie Zeitungen und Informationsschildern. So sorgen ausgeklügelte Algorithmen dafür, dass Inhalte gescannter Papierdokumente, Digitalbilder und physischen Aufschriften in maschinenlesbaren Text umgewandelt werden.

Die smarten Programme unterteilen die Seite dabei in relevante und nicht relevante Bereiche. Ein relevantes Element ist beispielsweise ein Textblock innerhalb einer Datei. Nicht relevante Bereiche sind wiederum Weissflächen, Grafikflächen oder Bilder. Die einzelnen relevanten Bereiche werden dann in Zeilen, Wörter und Buchstaben aufgeteilt. Anhand von Mustervergleichen und Hypothesen wird daraus der Inhalt abgeleitet. Der gesamte Prozess nimmt nur wenig Zeit in Anspruch, wobei das Resultat schlussendlich in einer editierbaren Textdatei vorliegt. Dadurch lassen sich die notwendigen Dateien und deren Informationen einfach Weiterverwenden, ohne das Dokument mühsam abtippen zu müssen. Das spart Zeit, Geld und Nerven.

Um die OCR-Funktionalität auch in Apps zu nutzen, wird ein passende OCR-Bibliothek und/oder Online Service benötigt. Dieses OCR-Toolkit integriert eine Engine, die es ermöglicht, den gesamten Umwandlungsprozess am mobilen Endgerät auszuführen.

Unsere Erfahrung mit OCR

Wir konnten bereits Erfahrung mit Texterkennung im Zusammenhang mit mobilen Apps sammeln. Nachfolgend informieren wir Sie über unsere Befunde.

Bei der Erstellung des Prototyps war die Absicht herauszufinden, ob die heutige Technologie reif dafür ist, eine physische Bibel mit digitalen Inhalten auf einem mobilen Gerät zu bereichern und damit einen Mehrwert gegenüber dem klassischen Bibellesen zu schaffen.

Für den Prototypen implementieren wir die folgenden vier Bibeln:

  • Deutsche Luther Bibel
  • King James Version
  • World English Bible
  • American Standard Version

Lösungsübersicht

Es gibt zwei wichtige Komponenten, welche zur Erkennung der einzelnen Bibeln und deren Kapiteln und Versen beitragen:

1. Komponente Texterkennung (Deutsch: OCR)

Die Texterkennung erkennt Text, welcher mit einer Smartphone Kamera gescannt wurde. Der erkannte Text stimmt nicht immer 100% genau mit dem Original überein. Jede Erkennungssoftware ist in ihrer Genauigkeit abhängig von bestimmten Faktoren, die weiter unten erläutert werden. In unserem Fall stellt die Software einen mobilen SDK (Software Development Kit) für Android und iOS bereit.

2. Komponente: Suchmaschine

Die Suchmaschine vergleicht den Text, welcher via Texterkennung eingelesen wurde, mit dem Bibeltext und sucht nach Übereinstimmungen. Die Vergleichsprozedur, benötigt etwas Zeit, da die Bibel sehr umfassend ist.
Wie erwähnt ist OCR-identifizierter Text nicht 100 % exakt und es muss mit fehlerhaften Text gerechnet werden, wofür die Suchmaschine Vergleichsalgorithmen enthält.
Dieser Vergleich, resp. Suche mit gewisser Fehler-Toleranz nach entsprechendem Text in der hinterlegten Bibel aus der App nennt sich auch Fuzzy-Search. Auch hier bietet der Suchmaschinen-Anbieter einen Mobile SDK für iOS und Android.Texterkennung Scanning Ablauf OCR

Nachstehend werden noch weitere Faktoren erwähnt, welche die Erkennungsschnelligkeit und die Treffsicherheit beeinflussen. Je grösser die Fehlertoleranz beim Vergleichen, umso schneller wird eine Passage gefunden, jedoch könnte es dafür die falsche Passage sein.
Ist die Fehlertoleranz beim Vergleichen klein, so braucht es etwas länger, da mehr Text übereinstimmen muss. Dies kann auch dazu führen, dass kein Resultat gefunden wird, da OCR nicht immer 100% genauen Text gegenüber dem Original erkennt, insbesondere wenn schlechte Lichtverhältnisse oder der Original-Text besondere Schriftarten enthält.

Protokolle und Befunde

Wir starteten unsere Arbeit mit folgendem OCR Tool und Suchmaschine:

ABBYY OCR

ABBYY wird oft als die beste mobile OCR Technologie bezeichnet. Sie verfügt über einen SDK für Android und iOS. Die Genauigkeit ist bei 99 %, was bedeutet, dass in der Regel von 100 Zeichen 99 korrekt erkannt werden. Für die Bibel App würde dies bedeuten, dass in praktisch jeder erkannten Passage ein Fehler generiert wird. Aus diesem Grund wird eine Suchmaschine die mit Fehlertolleranz durchsucht verwendet.

Apache Lucene Suchmaschine

Apache Lucene ist eine kostenlose und leistungsstarke Text-Suchmaschinenbibliothek, die vollständig in Java geschrieben wurde. Es handelt sich um eine Technologie, die für nahezu jede Anwendung geeignet ist, die eine Volltextsuche erfordert, insbesondere plattformübergreifend. Es gibt einen Android- und iOS-Port. Lucene unterstützt die „unscharfe Suche“ (Fuzzy Search).

Basierend auf diesen Fakten sollte es möglich sein, einen Vers oder Passage in einer Bibel visuell zu scannen und das entsprechende Buch, Kapitel und Vers zu erkennen.

ABBYY OCR ist langsam

Nach der Implementierung des ersten funktionierenden Prototyps haben wir erkannt, dass die Texterkennung mit ABBYY sehr langsam ist. Unter optimalen Bedingungen dauerte die Texterkennung mindestens 5 Sekunden.
5 Sekunden waren die Zeit, die benötigt wurde, um instabile oder ungenaue Ergebnisse zu erhalten. Genauere Ergebnisse erforderten 5-10 Sekunden. Auch die erkannten Texte hatten eine Vielzahl an Fehlern, nicht 99% wie beworben.

Der Textvergleich ist schnell

Wir haben zunächst nur eine digitale Bibel implementiert und mit dieser getestet. Rasch war ersichtlich, dass der Testvergleich mit der Apache Lucene Suchmaschine sehr schnell und eine gute Lösung ist. Es ist sogar möglich, mehrere Bibeln zu implementieren. Dabei ist die Suchzeit nicht wesentlich langsamer (Der Benutzer muss die Bibel nicht zuerst auswählen).
Die Suchzeit für eine Bibel betrug etwa 100 Millisekunden. Für 4 Bibeln dauerte es etwa 150-200 Millisekunden. In Bezug auf OCR-Scannen und auch gefühlt macht es keinen grossen Unterschied, deshalb haben wir vier Bibeln implementiert. Für die Suchmaschine besteht also kein Bedarf an weiteren Verbesserungen.

Google OCR ist eine bessere Lösung

Google stellt innerhalb seiner Mobile Vision Cloud Platform ein OCR-Tool zur Verfügung. Wir wollten diesen Tool testen. Die Ergebnisse waren viel besser bzw. schneller als mit ABBYY (das als eine der besten OCR-Technologien bekannt ist). Unter guten Bedingungen ist es sogar möglich, Bibelabschnitte innerhalb von 1 Sekunde zu erkennen.

Das richtige Verhältnis zwischen Zeit und Genauigkeit

Da OCR-erkannter Text nicht zu 100% korrekt gescannt wird, liefert die Suchmaschine manchmal falsche Ergebnisse (falsche Bibelabschnitte, weil Verse in anderen Kapiteln oder sogar Büchern ähnlich sein können). Wenn eine höhere Unschärfe-Such-Toleranz eingestellt wird, findet die Suchmaschine das Ergebnis im ersten Versuch, aber es ist wahrscheinlicher, dass es falsch ist. Wenn weniger Toleranz eingestellt wird, kann es vorkommen, dass der initial gescannte Text keine Ergebnisse liefert und längeres OCR-Scannen benötigt wird, um eine Übereinstimmung in der Bibel zu finden. Dies ist natürlich langsamer, aber die Ergebnisse sind genauer.
Deshalb muss man das richtige Gleichgewicht finden, zwischen Scan-Dauer und akzeptierter Fehlertoleranz (richtiges Auffinden).

Das Scannen im Querformat ist präziser (und schneller)

ocr texterkennung mobile scannen im querformat
Im Querformat werden die Sätze weniger abgeschnitten, so dass der Suchalgorithmus weniger Fehler machen kann, wodurch die Ergebnisse präziser werden. Im Querformat werden die Ergebnisse noch schneller gefunden.

Weniger Text, schnelleres Scannen (aber öfters falsche Ergebnisse)OCR Texterkennung Mobile Weniger Text Schnelleres Scannen

Je grösser der Abstand von der Kamera zur Bibel, desto mehr Text der Seite wird gescannt. OCR muss mehr Text verarbeiten, daher ist die Scandauer höher. Das Scannen von weniger Text ist viel schneller, andererseits kann es zu mehr falschen Ergebnissen kommen.

Schärfeeinstellung der Kamera (weniger Pixel zu verarbeiten)OCR Texterkennung Mobile Kameraschärfe

Je besser die Smartphone Kamera ist, je mehr Zeit nimmt die OCR-Verarbeitung in Anspruch, da die Kamera mehr Pixel liefert um nach Text zu suchen. So haben wir die Kameraqualität programmgesteuert verringert, so dass das Scannen immer noch präzise und möglich ist, jedoch die Ergebnisse viel schneller geliefert werden.

Kleinerer Kamera-Scanausschnitt
ocr texterkennung mobile kleinerer Kamera Scanausschnitt

Wir haben das noch nicht getestet und wissen auch nicht, ob Android diese Möglichkeit bietet, aber mit einem kleineren Kamera-Ansichtsschnitt wäre das Scannen noch schneller. Und weil der Ansichtsschnitt eher landschaftlich gewählt ist, sollten die Ergebnisse dennoch präzise sein.

Inhalte direkt im Text anzeigen
ocr texterkennung mobile inhalt direkt im text

Auch wenn es ein nettes Feature wäre, ist es nicht möglich, zusätzliche Inhalte anzuzeigen bzw. Abschnitte/Versen mit zusätzlichen Inhalten zu markieren, zumindest nicht zufriedenstellend für den Benutzer. Es dauert zu lange, den Text zu scannen und die Marker zu rendern. Wir haben es im Prototyp als Test implementiert. Der Benutzer muss das Telefon sehr ruhig halten, dann wäre es möglich, dass Inhalte direkt über dem entsprechenden Satz oder Wort angezeigt werden.

10 Verse für die Ausgabe

Der Prototyp erkennt die Bücher und Kapitel, aber nicht einzelne Verse. Die Ergebnisse könnten einzelne Verse sein, aber mit dem Smartphone (besonders im Hochformat) ist es nicht möglich oder sehr schwierig, nur einen einzigen Vers zu scannen. Aus Sicht der Benutzerfreundlichkeit und des Zusatznutzens müsste geprüft werden, wie diese Funktionalität bei Bedarf am besten implementiert werden könnte.

Scannen auf Displays

Wir haben erkannt, dass OCR-Scannen beim gedruckten Text viel besser funktioniert als auf Bildschirm-Text. Dies entspricht auch dem gewollten Use-Case, physische Bibeln mithilfe einer mobilen App mit digitalen Zusatzinhalten zu bereichern.

Fazit

Die mobile automatische Texterkennung öffnet viele neue Möglichkeiten mit Smartphones. Zum einen erhöht der Einsatz der bahnbrechenden Technik die Sicherheitsstandards, da die Umwandlung auch ohne eine Verbindung zum Backend möglich ist.

Die Vorteile liegen auf der Hand. So nutzen viele Firmen OCR für Mobile, um ihren Mitarbeitern die schnelle Belegerfassung auf Reisen zu ermöglichen. Die Technik revolutioniert zudem den gesamten Bereich des Aussendiensts, da Aussendienstmitarbeiter mithilfe von Mobile OCR sämtliche ausgedruckten Protokolle und Verträge direkt in das System einpflegen und weiterverarbeiten können. Somit steigert die mobile automatische Zeichenerkennung die Produktivität und bietet flexible und schnelle Lösungen für Unternehmen aus den unterschiedlichsten Branchen.

Texterkennung in dein bestehendes App integrieren?

Beratung erwünscht?

Wenden Sie sich an unseren Digital Experten Maroje Ljutic

+41 79 955 63 91 Mo-FR 9-18 Uhr
Projekt starten

Machen Sie den ersten Schritt in Ihre digitale Zukunft.

Kontakt Aufnehmen