ReadPic: OCR für Anfänger

Es war schon ein Zufall, wie ich auf ReadPic stieß. Eine kleine schüchterne Anzeige in einem Computermagazin offerierte eine durchaus preisgünstige Texterkennung für den Atari ST. Und weil ja gerade die Hand-Scanner zur Zeit reißenden Absatz finden, war es schon ein Abenteuer wert, sich dieses kleine Programm anzuschauen.

ReadPic unterstützt z.Zt. ausschließlich Hand-Scanner, die über den ROM-Port an den Atari ST angeschlossen werden - und von denen leider nur zwei: 1.den GeniScan mit 100, 200, 300 und 400 dpi (dpi = dots per inch, engl, für Punkte pro Zoll) und 2. den Cameron mit 200 dpi. Diese Auswahl ist nicht gerade berauschend, das wird sich aber angesichts der Konkurrenz und der mittlerweile zahlreichen Hand-Scanner-Modelle alsbald ändern.

RadPic beansprucht als Minimalkonfiguration einen Atari ST mit 1 MByte Speicher und einen Monochrommonitor. Vom Arbeitsspeicher belegt das Programm 400 kByte. ReadPic ist hauptsächlich in Prospero-Fortran und Devpac-Assembler geschrieben. Gerade die Assembler-Routinen geben dem Programm etwas mehr an Power.

Das Bild

Nach dem Programmstart sieht man nichts anderes als die Menüzeile und ein leeres, weißes Fenster. Die Menüpunkte selbst sind auch nicht gerade reichlich vorhanden. Sie beschränken sich hauptsächlich auf Datei-Handling. Herausragend ist das große Buchsymbol im Menü Texterkennung. Es ist der eigentliche Startknopf für den Erkennvorgang. ReadPic erwartet nun, entweder ein schon vorhandenes Bild aus einer Datei zu lesen oder ein ganz neues mit einem Scanner aufzunehmen. Dann breitet sich der Text in Originalgröße in dem Fenster aus. An Bildtypen sindScreen-Format (SCR, DOO), Degas (PI3), STAD gepackt (PAC) oder GEM-Image (IMG) erlaubt. Das Scanner-Bild wird als 32-kByte-Screen-Format aufgefaßt.

In diesem Zusammenhang ist wichtig zu erwähnen, daß ein umfangreiches Bild-daten-Konvertierprogramm mitgel iefert wird. Es wandelt von bzw. nach folgenden Formaten: Pworks high/middle/low, Degas high/middle/low, Degas PC?, STAD, Doodle, IMG, ArtDir, und Neochrome. Interessant ist, daß hier auch einige (wenige) PC-Formate unterstützt werden. Sicher wäre eine Weiterentwicklung in dieser Richtung anzuraten. Auf Degas und Neochrom könnte man eigentl ich verzichten. Wie dem auch sei, an verschiedenen Bildformaten dürfte die Arbeit nicht scheitern.

Kennen Sie den?

Ungewöhnlich wie das ganze Programm ist auch das Bild, das sich uns nach dem Einlesen einer Vorlage präsentiert: Links oben liegt nun eine Menübox, und rechts davon sind schon die ersten unbekannten Zeichen zu sehen.

Der Rest des Bildschirms bleibt weiterhin weiß und damit unbenutzt. Inder Mitte der Menübox signalisiert ein umrahmtes Rechteck „unbekannter Buchstabe“. Das bezieht sich auf den gleich rechts daneben vergrößert dargestellten Buchstaben. Bemerkenswert ist die Darstellung dieser unbekannten Zeichen. Dort sind Eingrenzungslinien und einige merkwürdige Zahlensymbole zu sehen. Leider läßt sich nur der englischsprachige Teil des Handbuches darüber aus, was diese Zeichen zu bedeuten haben.

Der Vorlagentext in Originalgröße

Wenn nun der unbekannte Buchstabe nicht über die Tastatur einzugeben ist, kann mit dem Menüboxeintrag Spezial eine Zeichensatztabelle mit vielen Fremdsprachen- und Sonderzeichen eingeblendet werden. Diese Liste ist per Mauspfeil zugänglich. Links in der Ecke sind auch einige Ligaturen (überlappende oder verschmolzene Buchstabenpaare) zur Auswahl gestellt. Apropos Ligaturen: Einige solcher Überschneidungen sind in verschiedenen Schriftarten durchaus gewollt. ReadPic ist nun in der Lage, solche echten Ligaturen zu erkennen und zu trennen. Bei unechten Ligaturen, wo also die Buchstaben ungewollt ineinander greifen, kann das Programm in bis zu drei echte Buchstaben auftrennen.

Als weiteres (einziges) Bedienungselement steht noch eine Parameterbox zur Verfügung. Sie ist aber in ihren Ausmaßen sehr unglücklich ausgefallen. So ist sie extrem gestaucht und breit, und man hat die Hinweistexte in der kleinsten Schriftart gewählt. Es sind doch ohnehin nur globale Einstellungen, die dort vorgenommen werden. Warum hat man nicht eine schöne große Dialogbox daraus gebaut? Auch die Aufteilung der Auswahlpunkte ist nicht gerade übersichtlich.

In die Vollen

Die Anwahl des Menüpunktes Vollbild zeigt ein reduziertes Bild. Die Vorlage wird soweit verkleinert, daß sie ohne Verzerrung alsGanzes auf den Bildschirm gebracht wird. Die Verkleinerungen werden in den Faktoren 2, 4 und 8 durchgeführt. Sehr große Bilder, die eine Reduktion um mehr als das 8fache erfordern (also bei mehr als 5000 Pixeln in der Breite und mehr als 3000 Pixeln in der Höhe), werden leider nicht weiter verkleinert (warum eigentlich nicht?).

Die einzige Manipulationseinrichtung ist das Herausschneiden von Bildteilen mit dem Mauslasso. Leider läßt sich der vernichtete Bildteil nicht mehr zurückholen.

So sieht der Erkennungsmodus aus: links das Steuerfenster, rechts die vergrößerte Vorlage und unten die Zeichensatzauswahl

Zusammenfassend

Ganz ehrlich: So ganz vollkommen ist ReadPic nicht. Auch ist es gelegentlich vorgekommen, daß es sich mit zwei bzw. drei Bomben verabschiedete. Es kann natürlich auch sein, daß andere (evtl, speicherresidente) Programme da hineinpfuschten. Im großen und ganzen ist ReadPic überarbeitungsbedürftig. Einige Bedienungselemente sind nicht sehr durchsichtig, und die Bildaufteilung bedarf einiger Verbesserungen.

Ich betrachte ReadPic als Ausgangsbasis für Weiterentwicklungen, die dringend anzuraten wären. Als Arbeitsgrundlage für die Zielgruppe der Hand-Scanner-Besitzer ist ReadPic durchaus zu empfehlen. Denn eines hat es klaglos erledigt - es hat wirklich sauber und genau die Buchstaben erkannt.

Das Handbuch ist nicht sehr angenehm ausgefallen. Die einzelnen Menüpunkte sind auf knappen 18 Seiten zusammengestellt - und das war es auch schon. Wenn wir irgendwann einmal wieder von ReadPic lesen werden, dann muß es ein Programm geworden sein, das sich mit Sherlook oder Syntex messen lassen muß. ReadPic kostet 150 DM.

DK

Bezugsquelle: Weichware Kammer, Mendel & Wienecke GbR Porsenbergstraße 16 2900 Oldenburg



Aus: ST-Computer 11 / 1990, Seite 26

Links

Copyright-Bestimmungen: siehe Über diese Seite