Sherlook Professional - Ambitioniertes OCR-System

Beim Lesen von Handschriften sind Computer fast ausnahmslos überfordert. Daß die Sache bei Druckvorlagen bereits hervorragend klappt, ist auch ein Verdienst des ausgezeichneten OCR-Programms »Sherlook Professional« von 3K.

Texterkennung, kurz OCR (Optical Character Recognition), ist ein Verfahren zur Digitalisierung gedruckter Texte. Trotz gänzlich anderslautender Prognosen: An der marktbeherrschenden Präsenz von Gedrucktem konnten auch ausgefeilte Texterkennungssysteme bisher nicht rütteln. Im Gegenteil: Computer sind stärker denn je an der Vorbereitung und Herstellung von Druckerzeugnissen beteiligt und sorgen in Belichtungsstudios für volle Auftragsbücher. Zudem sichern Digitalisierungstechniken in Bibliotheken und Archiven das Material bibliophiler Raritäten.

Dennoch: Der Vorsprung des geschriebenen Wortes schmilzt. Mittlerweile gibt’s einen florierenden Handel mit Digitalliteratur: Die Computerversion der Elberfelder Bibelübersetzung ist nur ein Beispiel von vielen. Beteiligt an der zunehmend komfortableren Digitalisierung von Gebrauchstexten sind neben leistungsfähigen Scannern vor allem ausgeklügelte OCR-Systeme, die Buchstaben in für den Computer lesbare Daten verwandeln. Mühsames Abtippen gehört für OCR-Anwender heute bereits der Vergangenheit an.

Vorbei auch die Zeit, als man sich glücklich schätzen durfte, trotz OCR die Tipparbeit auf die Hälfte zu reduzieren. Wie bei Textsystemen gibt’s auch bei Texterkennungs-Software je nach Art der Anwendung unterschiedliche Lösungen. Nicht alles, was mit dem Etikett OCR wirbt, wird hohen Ansprüchen gerecht.

Sherlook verdient das Attribut Professional zu Recht. Zugunsten hoher Trefferquoten wurde aufschnelle Lernfähigkeit der Software verzichtet. Kein Programm also für den spontanen Gelegenheitsscan, sondern ein Spezialist zur Massenerfassung gleicher oder ähnlicher Textvorlagen.

Dabei verzichtet das Programm vollständig auf Dropdown-Menüs. Alle Funktionstasten befinden sich im unteren Bildschirmabschnitt (Abb. 1). Zwischen drei verschiedenen Menüs " Hauptmenü, Zeichenmenü und Textmenü " läßt sich jederzeit per Mausklick oder Funktionstaste umschalten.

Nach Einlesen der Vorlage " Scanner verwandeln Textvorlagen zunächst in eine Image-Bilddatei " erscheint die Grafik im rechten oberen Fenster. Vorm Start des Erkennungsvorgangs sollten zunächst einige Parameter eingestellt werden. Sherlooks einschlägiges Menüangebot signalisiert alles andere als Schmalkost.

Wichtigstes Utensil des Werkzeugkastens sind Bildbearbeitungsfunktionen: Ist das gescannte Bild etwa zu hell " Buchstaben erscheinen dann zu dünn und sind an manchen Stellen unterbrochen ", verwandelt die Funktion »Verdicken« dünne Lettern in dicke.

Ob es sich um Text, Rahmen oder Zeichnungen handelt " Buchstaben werden vom Scanner in Pixel-Form wiedergegeben. Auch Staubpartikel oder beim Fotokopieren entstandene Unsauberkeiten zeichnet der Belichter auf: Sie erscheinen als verwaiste Pixel und lassen sich " bevor das Texterkennungsprogramm vergeblich versucht, sie zu identifizieren " durch die Funktion »Filtern« eliminieren.

Auch die Vorlagenqualität, die beim Original logischerweise immer besser als bei einer Fotokopie ist, sollte angegeben werden. Diese Einstellungen wirken sich besonders auf die Erkennungsgeschwindigkeit aus. Bei schlechten Vorlagen vergleicht das Programm, bei gleichzeitig sinkender Geschwindigkeit, entsprechend gründlicher.

Sherlook erwartet schließlich noch Eingaben zum Zeilen- und Zeichenabstand sowie zu Leerstellen und Ligaturen. Angaben dazu beeinflussen die Präzision der Texterkennung. Beim ersten Einsatz von Sherlook sind Experimente, bis Scanner und Software perfekt harmonieren, kaum zu vermeiden. Es gehört schon etwas Erfahrung dazu, auf Anhieb präzise die richtige Einstellung für eine beliebige Textvorlage herauszufinden.

Bei der Buchstabenidentifikation arbeitet Sherlook mit der »Matrix-Matching«-Methode. Dabei werden für einen Buchstaben typische Pixel-Muster in einer Bibliothek gesammelt. Für jede neue Schriftart legt das Programm eine gesonderte Vergleichsbibliothek an. Zu erkennende Buchstaben werden später mit den Mustern in solchen Bibliotheken verglichen.

Dabei geht Sherlook durchaus neue Wege. Buchstaben werden nicht nur ein einziges Mal gelernt. Von einer einstellbaren Anzahl von Mustern eines Buchstabens wird ein Mittelwert errechnet. Erst das gemittelte Muster kommt ins Archiv. So werden kleine Abweichungen im Muster «eines Buchstabens schon während der Lernphase ausgeglichen. Obwohl sich durch bessere Kontrolle die Trefferquote deutlich erhöht, gibt es zweierlei zu beachten:

Die Lernphase, das Zuordnen von Pixel-Mustern zu Buchstaben, verlängert sich.
Hohe Treffsicherheit des Programms ist nur bei vollständigen Bibliotheken gewährleistet. Im Lernmodus werden zunächst noch zahlreiche Buchstaben falsch interpretiert.

Bei kompletten Bibliotheken erreicht Sherlook dann allerdings verblüffende Trefferquoten. Wenn Sie Vorlagen mit neuer Schriftcharakteristik bearbeiten, sucht das Programm im Schriftenarchiv automatisch nach geeigneten Bibliotheken früherer Texterkennungssitzungen. Gleichzeitig wird prozentual aufgelistet, mit welcher bestehenden Bibliothek die Trefferquote voraussichtlich am höchsten ist. Eine sinnvolle Funktion, wenn Sie eine Times-Schrift bearbeiten und die Bibliothek bereits eine andere Serifenschrift enthält. Zu beachten ist auch hier, daß die zu erwartende Erkennungsgenauigkeit nicht unter 50 Prozent liegen sollte. Ansonsten empfiehlt sich der Aufbau einer neuen Bibliothek. Die Erkennung mit vollständiger Bibliothek ist das Herzstück des Programms. Die Funktion läßt sich nur starten, wenn der bearbeitete Bereich der Grafik mit einem Rahmen markiert ist. Sherlook unterstützt bis zu 99 solcher Textkästen. Sinnvoll ist das Verfahren besonders beim Spaltenumbruch. Rahmen verhindern, daß eine zu unterschiedlichen Spalten gehörende Zeile nicht durchgehend waagerecht analysiert wird.

Einspaltige Buchseiten lassen sich auch automatisch per Mausklick mit Rahmen versehen. Zusätzlich gibt’s noch fixe Rahmen, z.B. für Karteikarten mit gleichem Format, die nach Laden einer neuen Grafik vollautomatisch aufgezogen werden.

Beim ersten Programmstart finden sie noch keine Bibliotheken vor. Beginnen Sie den Texterkennungsvorgang zunächst im Lernmodus. Hierfür gibt es zwei Grundeinstellungen:

Lernen
Lernen und gleichzeitiges Erkennen

Im Modus 1 werden nur wenige Zeilen eingerahmt und charakteristische Eigenschaften der Schrift gelernt. Erst danach erhält die gesamte Grafikseite einen Rahmen und das Programm schaltet in Modus 2. Nun erkennt Sherlook " immer noch in der Studienphase " gleichzeitig Text und legt ihn als ASCII-Zeichen im Textpuffer ab. Das Lernen funktioniert wie bei allen intelligenten OCR-Programmen: In einem Fenster werden Buchstaben als Pixel-Muster angezeigt, in einem anderen überschauen Sie die gesamte Textumgebung. Über die Tastatur wird den Pixel-Mustern ein Buchstabe zugeordnet.

Bei schlechteren Vorlagen kleben Lettern häufig aneinander. In der Typografie werden miteinander verbundene Buchstaben Ligaturen genannt. Häufig sind davon eine Reihe typischer Zweierkombinationen, z.B. »fi« oder »ft« betroffen. Sherlook ermöglicht sogar die Trennung von Dreiergruppen.

Eine weitere Besonderheit: Verwaschene Buchstaben lassen sich per Undo-Taste in den Text übernehmen. Sie werden dann allerdings, um das Spektrum möglicher Pixel-Muster nicht zu verfälschen, nicht in die Bibliothek eingefügt.

Allerdings kann man bei Sherlook im Lernmodus, der sich jederzeit abschalten läßt, falsche Eingaben nicht auf direktem Weg korrigieren. Ersatzweise gibt es Funktionen zur nachträglichen Bearbeitung der Bibliothek. Bei nichterkannten Zeichen fügt das Programm an deren Stelle eine freiwählbare Zeichenfolge in den ASCII-Text ein, die anzeigt, daß ein Zeichen keinem Pixel-Muster der Bibliothek zugeordnet werden konnte. Alle Parameter, Suchpfade, Bibliotheksnamen und Rahmen lassen sich in einer Job-Datei speichern. Bei identischen Vorlagen sind damit keine Parameterveränderungen mehr -notwendig. Job-Dateien steuern auch die gesamte Texterkennungsprozedur. Notwendige Voraussetzung: Gescannte Bilder müssen durchgehend numeriert werden. Erkannter Text wird dann an bestehende ASCII-Dateien angehängt. Bei großen Festplatten scannen Sie zunächst alle Texte ein " Sherlook liest über Nacht nach.

Darüber hinaus lassen sich Texte zur Weiterverarbeitung im »1st Word Plus«-Format, als ASCII mit oder ohne CR, oder in verschiedenen Datenbankformaten speichern.

Zum Abschluß das unvermeidliche Wort zum Handbuch. Der gewichtige DIN-A5-Ringordner läßt Gutes vermuten. Auf rund 50 Seiten erfahren Anwender allerdings gerade das Allernötigste. Obwohl das Programm nach kurzer Einarbeitung komfortabel zu handhaben ist " die Abhandlung möglicher Probleme auf eine einzige Handbuchseite ist unangemessen. Zudem verweisen die Autoren wiederholt auf frühere Textstellen. Ein Index zum schnellen Auffinden fehlt allerdings.

Letztlich konnte aber auch die spärliche Dokumentation den hervorragenden Gesamteindruck, den Sherlook hinterließ, nicht schmälern. Das Programm gehört zur Creme ambitionierter OCR-Software. (em)

Sherlook Professional

Hersteller: 3K Computer
Preis:** 1000 Mark
Stärken: schnelle Texterkennung mit hoher Trefferquote, Automatisierung alter Arbeftsgänge, durchdachte Benutzerführung
Schwächen: mangelhafte Dokumentation
Fazit: ideale OCE-Software für große Textmengen mit gleicher typografischer Charakteristik

Detlef Fabian

Aus: ST-Magazin 08 / 1991, Seite

Links