ABBYY Mobile OCR Engine

OCR Schritte

 

Arbeitsschritte Details

Schritt 1: Import und Verarbeitung

Das Bild wird über ein Speichermedium geladen und für den OCR-Prozess vorbereitet. Durch die Binarisierung des Bildes werden Text und Hintergrund von einander getrennt, wodurch ein Schwarzweiß-Bild entsteht, das signifikant weniger Speicherplatz einnimmt als das farbige Original. Zusätzlich werden alle Störfaktoren aus dem Bild entfernt und die Ausrichtung des Dokuments bestimmt.

Funktion für die automatische Korrektur von Störfaktoren. Wenn Sie ein Bild mit der Kamera oder dem Scanner eines mobilen Gerätes erstellen, kann es durchaus häufig zu Verzerrungen und anderen Störfaktoren im Bild kommen, die die Erkennungsqualität beeinträchtigen. ABBYY Mobile OCR Engine ermöglicht die Erkennung und Korrektur von Verzerrungen bis zu einer Stufe höher im Schärfegrad, die zu einer signifikanten Verbesserung der Qualität und Präzision der OCR-Erkennung beitragen.

Funktion für die Feststellung der Ausrichtung. Die Bildvorbearbeitung erkennt automatisch die Ausrichtung einer zu erkennenden Textseite (wenn das Dokument z.B. seitwärts oder mit dem oberen Ende nach unten eingelegt wurde).

Schritt 2: Dokumentenanalyse

Die Dokumentenanalyse besteht aus einem Set an Algorithmen, die das Bild analysieren – Buchstaben werden erkannt und zuerst zu Wörtern, dann in Zeilen und schließlich zu Paragraphen zusammengesetzt. Zusätzlich werden die Störfaktoren in den Erkennungsfeldern bereinigt.

Erkennung von Silbentrennung. Wenn die Engine auf ein in Silben getrenntes Wort trifft, wie z.B. wenn "Mon-" in der einen Zeile steht und "tag" in der nächsten, dann fügt die Software die beiden Wortteile zu einem Wort zusammen.

Erkennung von mehrspaltigen Texten. In den vorherigen Versionen von ABBYY Mobile OCR Engine konnte der Text nur strikt von links nach rechts, von oben nach unten erkannt werden, wodurch die Daten in einen einzigen Textblock "gepresst" wurden. Die neue Version bietet nun die neue Funktion "Paragraph Assembly", durch die Grenzen von Textblöcken einzeln erkannt werden und der Text innerhalb des Blocks separat gelesen wird. So können Textformate mit mehreren Spalten, Paragraphen oder Textsegmenten in ihrem Originallayout erhalten bleiben.

Wiederherstellung von Schrifteigenschaften. ABBYY Mobile OCR Engine kann die Eigenschaften der Schrift identifizieren und rekonstruieren. Die Funktion erkennt ob die Schrift fett oder kursiv gedruckt, oder ob der Text unterstrichen ist.

Der Ekennungswahrscheinlichkeits-Indikator. Diese Funktion zeigt die Wahrscheinlichkeit für eine korrekte Erkennung des Textes an, woduch Entwickler individuelle Parameter bezüglich der Korrektur und Verifikation implementieren können.

Die Rechtschreibkorrektur während des Erkennungsvorgang trägt maßgeblich zu der Qualität des erkannten Textes bei.

Schritt 3: Optische Zeichenerkennung (OCR)

Die als Textfelder eingestuften Bildsektionen werden anhand von speziellen Sprach- und Schema-Definitionen erkannt. Stehen Wörterbuchfunktionen zur Verfügung, werden diese hinzugezogen, um die Gesamtqualität des Textes zu verbessern. Die Erkennungsergebnisse werden anhand ihrer Koordinaten in Zeilen strukturiert. Jedes erkannte Zeichen weist Informationen bezüglich seiner Erkennungswahrscheinlichkeit auf, die angeben, wie sicher die Software in der finalen Entscheidung war.

Zwei mobile Erkennungsmodi:

  • Fast Mode – Die Express-Erkennung ist der optimale Modus, wenn das Bild eine gute Qualität aufweist. Dieser Schnellmodus ermöglicht es die Zeit, die für die Erkennung und Bearbeitung aufgewendet wird, signifikant zu verkürzen.
  • Full Mode –Die Präzisionserkennung ist optimal für Bilder, die eine schlechte Qualität aufweisen. Dieser sorgfältige Modus ermöglicht es – zwar mit einem größeren zeitlichen Aufwand – auch Bilder zu erkennen, deren Qualität mangelhaft ist

Visitenkartenerkennung (optional)

Die Erkennungsergebnisse werden analysiert und die relevanten Kontaktdaten der Visitenkarte extrahiert.

Mit dieser Funktion können wichtige Informationen aus Fotos von Visitenkarten erfasst werden, wie z.B. der Vor- und Nachname, sowie die verschiedenen Zusatzinformationen bezüglich der Person, wie Telefonnummern, E-Mail-Adresse, Position, Firmenname, Website und Postanschrift.

Die neue Version unterstützt die Erkennung von Visitenkarten in 23 Sprachen.  

Barcode-Erkennung (optional)

Diese Funktion bietet eine herausragende Barcode-Erkennung für viele verschiedene Arten von 1D- und 2D-Barcodes.

Da die Funktion keine Barcodes auf einer Seite lokalisieren kann, sollte der Anwender entweder nur den Barcode fotografieren, oder das Bild nachträglich manuell so anpassen, dass nur der Barcode zu erkennen ist.

 

Schritt 4: Verarbeitung des Ergebnisses

Die Erkennungsergebnisse können verarbeitet und exportiert werden. Der Entwickler der Applikation hat die vollkommene Kontrolle über die OCR-Ergebnisse