Korrekturhilfe: Das Wörterbuch von 1st_Word plus

Es wäre wirklich schade um Ist Word plus. Es ist ein so vorbildlich klares, sauberes, benutzerfreundliches, in einiger Hinsicht geradezu geniales Programm. All den großen MS-DOS-Textprogrammen hat es vor allem eine Qualität voraus: Es macht sich selbst kaum bemerkbar - Funktionen, um die andere Programme ein umständliches Wesen machen, verrichtet es gleichsam nebenbei. Darum ist es besonders bedauerlich, daß GST und ATARI das Interesse an seiner Weiterentwicklung verloren zu haben scheinen; sonst hätte vielleicht ein in jeder Beziehung optimales Programm aus ihm werden können. Mir jedenfalls wird der Abschied von ihm schwerfallen.

Völlig zu unrecht wird ihm immer wieder vorgeworfen, es sei beim Scrollen im Text “entsetzlich langsam und träge”. Tatsächlich kenne ich kein Programm, das es erlaubte, so leicht und schnell selbst durch extrem lange Dateien zu scrollen - mit einigem Augenmaß ist man genauso schnell an der gesuchten Stelle, und sei sie noch so fern, wie es dauert, das weiße Quadrat im Rollbalken rechts auf und ab zu schieben.

Gleichwohl hat es Schwächen. Ich glaube, man tut gut daran, die wenigen echten Fehler (die auf jeden Fall noch beseitigt werden müßten, wenn es weiter eine Rolle spielen will) von den bloßen Wünschbarkeiten zu unterscheiden.

Die Fehler:

  1. Das Programm stürzt gelegentlich ab: der Cursor beginnt im Text hin und her zu springen, die Tasten reagieren nicht mehr. Manchmal gelingt es gerade noch, den aktuellen Textstand zu sichern - meist aber ist er verloren.
  2. Die Trennhilfe versagt nicht nur, wenn Anführungszeichen in der Zeile stehen, sondern auch bei Klammem und unter einigen anderen, schwer durchschaubaren Bedingungen.
  3. Beim Neuformatieren veränderter Textpassagen ignoriert es häufig Carriage Returns, so daß Absätze aneinandergehängt werden. Vielleicht hat es unter bestimmten Bedingungen manche Carriage Returns auch vorher gelöscht - man sieht es ja nicht. Eine Abhilfe wäre es, die Carriage Returns doch mit irgendeinem kleinen Symbol auf dem Bildschirm darzustellen.
  4. Weder beim wortweisen Löschen noch bei der Rechtschreibüberprüfung erkennt das Programm getrennte Wörter als solche, sondern behandelt fälschlich beide Hälften, als seien sie eigene Wörter.

Wünschenswert wären einige zusätzliche Funktionen:

  1. Die Möglichkeit, den Text in anderthalbzeiligen Abständen ausgeben zu lassen.
  2. Blocksatz mit Feinausgleich der Wortabstände direkt aus dem Programm, auch in Proportionalschrift.
  3. Die Möglichkeit der Spaltenbildung und -formatierung.
  4. Die Aufhebung der Längenbeschränkung bei den Fußnoten.
  5. Endnoten zusätzlich zu den Fußnoten.
  6. Die Möglichkeit, Textblöcke zwischen verschiedenen Textfenstern hin und her zu kopieren.
  7. Die Möglichkeit, einige Default-Parameter selber einzustellen, vor allem die Trenntiefe und die automatische Seitennumerierung.
  8. Die Möglichkeit, Desktop-Funktionen aufzurufen, ohne das Programm zu verlassen.
  9. Eine Überschreibfunktion wie etwa bei EUROSCRIPT, die es erlaubte, akzentierte Zeichen zu schreiben, ohne erst zum Sonderzeichenfont zu blättern; oder die Möglichkeit, bestimmte Zeichen aus dem Font auf einzelne Tasten zu legen.
  10. Als Alternative dazu zumindest die Möglichkeit, den Sonderzeichenfont mit einem Tastaturbefehl sichtbar und unsichtbar zu machen.

Schön wäre es auch, wenn die deutsche Betextung so geändert würde, daß dem Anwender nicht andauernd dieses falsche Deutsch entgegenkommt. Das Rechtschreibprüfprogramm hat einen Grundfehler, der nur behoben werden könnte, wenn man noch einmal bei Null anfinge. Nämlich: es ist in seinen Leistungen auf die englische Sprache eingestellt, nicht aber auf die anders strukturierte deutsche. Die Wörter der deutschen Sprache sind länger; sie hat ungleich mehr flektierte Formen; sie bildet zusammengesetzte Wörter in großer Zahl. Alles das führt dazu, daß ein deutsches Lexikon sehr viel umfangreicher sein muß, damit es Vergleichbares leistet wie ein englisches. Dem schieren Umfang sind hier Grenzen gesetzt: durch die Kapazität des RAM, durch die Ladezeit, durch die Datenmenge, die das Rechtschreibprüfprogramm verwalten kann. Dar-_m muß das Lexikon komprimiert erden. Indem sie ein durchschnittlich über 12 Bytes langes deutsches Wort auf 1,5 Byte reduzieren, haben GST und ATARI wohl ein Äußerstes an Datenkompression verwirklicht. Bliebe also nur, den Platzbedarf des Lexikons von vornherein merklich zu verringern. Die Löschung von Einträgen ist kein Weg; das Lexikon kann zwar nicht genug Wörter enthalten. Es müßte weniger Platz in Anspruch nehmen, gerade um die Aufnahme zusätzlicher Wörter möglich zu machen. Und das wäre tatsächlich durch eine einzige Programmänderung zu erreichen; Es müßte Zusammensetzungen seiner einzelnen Einträge als legitime Wörter anerkennen. Dann erübrigte es sich zum Beispiel, alle Verben, die mit auf- beginnen, und das sind Hunderte, einzeln in ihren konjugierten Formen aufzunehmen (durchschnittlich neun bereits, wenn man auch nur die häufigsten berücksichtigt) - die konjugierten Grundverben und die einzelnen Präpositionen würden genügen. Auch die zum Teil völlig unvorhersehbaren zusammengesetzten Substantive, die das Deutsche so reichlich bildet, wären zu einem großen Teil abgedeckt. Dadurch wäre das Lexikon schätzungsweise um über ein Drittel zu reduzieren; und an die Stelle dieses Drittels könnte man viele dringend nötige neue Einträge setzen.

Das alte deutsche Lexikon zu lst_Word plus hatte nach meiner Berechnung etwa 38.000 Einträge und dabei nur spärliche Flexionsformen. Das neue, das ATARI mit der Version 2.02 ausliefert, hat 97.000 und zu sämtlichen Lexemen die gebräuchlichsten Flexionsformen (durchschnittlich 4). Für eine wirklich flüssige Arbeit mit ihm wären schätzungsweise 120.000 Einträge erforderlich. Darum sollte sich niemand an dem “Ballast” an Einträgen stören, die er persönlich wahrscheinlich niemals brauchen wird. Klar, der eine wird seinem Computer nie ein Wort wie Scheiße anvertrauen, der andere nie ein Wort wie CIM; da das kein Lexikon voraussehen kann, muß es beide Anwender bedienen. Natürlich wäre es nicht schlecht, wenn man auch im Hauptlexikon Einträge löschen könnte; aber wichtig ist das nicht. Selbst wenn man 1.000 Wörter fände, auf die man selber gerne verzichtete - ihre Löschung würde die Bearbeitungszeit nicht beschleunigen und die Ladezeit (von der Festplatte) nur um zwei Drittelsekunden verkürzen.

Man sollte sich also besser um die Erweiterung statt um die Verkleinerung des Grundlexikons Sorgen machen. Etwa 30.000 Einträge brauchte es noch. Das wäre einiges an zusätzlicher Arbeit (mindestens 100 Arbeitsstunden). Aber auch wenn sich jemand die Mühe machte: Es wäre vor allem nicht gesagt, daß das Prüfprogramm ein so umfangreiches Lexikon noch verwalten könnte. Ich konnte von ATARI jedenfalls nicht erfahren, welches denn nun die Grenze ist. Da liegt der Hase im Pfeffer.

Um das Rechtschreiblexikon als Ausnahmewörterbuch für die Silbentrennung zu benutzen, müßte es ebenfalls von Grund auf neu gebaut werden - das wird also wohl nie geschehen. Aber die Trennhilfe ließe sich auf eine sehr viel einfachere Weise wesentlich verbessern: Sie müßte nur statt des englischen einen deutschen Trennalgorithmus bekommen.

Es hat meiner Meinung nach wenig Sinn, GST und ATARI jetzt an den Kopf zu werfen, 1st_Word plus wäre nur noch dann zu “retten”, wenn sie Änderungen vornähmen, die auf eine völlige Neukonzipierung ganzer Programmteile hinausliefen. Sehe ich recht, wird es dazu bestimmt nicht kommen. Um so deutlicher aber müßte man darauf dringen, daß wenigstens die verbliebenen Bugs beseitigt und vielleicht noch ein paar weniger grundlegende Veränderungen vorgenommen werden. So wäre ohne allzu großen Aufwand doch noch eine sehr wesentliche Verbesserung zu erreichen.

Auf dem Bildschirm übersieht man Tippfehler leichter als auf Papier. Besonders oft entgehen einem fälschlich verdoppelte oder verdreifachte Buchstaben. (Irrtümlich ausgelassene oder verdoppelte ganze Wörter bemerkt die Rechtschreibkontrolle natürlich nicht, sofern diese richtig geschrieben sind.) Darum kann eine Rechtschreibhilfe, die einen beim Auffinden solcher Fehler unterstützt, von beträchtlichem Nutzen sein.

Eine Rechtschreibhilfe, bekannter unter der englischen Bezeichnung Spelling Checker (wörtlich: “Rechtschreibprüfer” oder Rechtschreibprüfprogramm), ist nichts anderes als ein elektronisch gespeichertes Wörterbuch, ein Lexikon, das eine bestimmte Anzahl richtig geschriebener Wörter enthält.

Bei der orthographischen Kontrolle vergleicht das Programm, welches das Lexikon verwaltet, ein Wort des Textes nach dem anderen mit dem Lexikon, und der Cursor springt zum nächsten Wort, das im Lexikon nicht enthalten ist. Dabei ignoriert es einzeln stehende Buchstaben sowie Zahlen und Zeichenfolgen, jedenfalls sofern diese keine Sequenzen von Buchstaben enthalten - und keine O’s anstelle der Nullen.

Daß der Cursor beim Korrigieren bei einem Wort stehenbleibt, kann mehrere Gründe haben.

Erstens kann das Wort einen Schreibfehler enthalten. Dann hat die Rechtschreibhilfe darauf aufmerksam gemacht und damit ihren Zweck erfüllt.

Zweitens betrachtet das Programm beide Hälften eines am Zeilenende getrennten Worts als separate Wörter. Da es sie im Regelfall nicht erkennen wird, stoppt der Cursor bei ihnen. Drittens hält der Cursor auch dort, wo das Programm auf ein Wort trifft, das nicht im Wörterbuch steht, obschon es völlig richtig geschrieben ist. Die Rechtschreibhilfe ist natürlich um so besser und nützlicher, je seltener das passiert. Wenn sie bei jedem dritten durchaus richtig geschriebenen Wort eines Textes einhält, wird man sehr schnell ganz auf sie verzichten. Warum also nicht gleich eine Rechtschreibhilfe, die sämtliche überhaupt in Frage kommenden Wörter enthält? Etwas Sprachstatistik führt einem schnell vor Augen, daß es sie nicht geben kann; und daß ein unbezahlbarer Aufwand nötig wäre, um ihr auch nur nahezukommen.

Der allgemeine deutsche Wortschatz wird auf etwa 300.000 Lexeme geschätzt. Das größte deutsche Wörterbuch (der “Brockhaus-Wahrig”) enthält 220.000. (Unter einem Lexem versteht der Linguist die Grundform eines Wortes, unter der man es im Lexikon findet.)

Dazu kommen die Dialekte, die sozialen Sondersprachen, die historischen Wörter und vor allem die verschiedenen Fachterminologien mit schätzungsweise 5.000 bis 20.000 Spezialbegriffen für jedes größere Sachgebiet. Einige haben sehr viel mehr. Eine Sammlung von Fachbegriffen vorwiegend aus dem technischen Bereich, die das Bundessprachenamt als Datenbank unter dem Namen LEXIS führt, nähert sich zwei Millionen Lexemen. In der Chemie gibt es für jede Verbindung auch einen Namen (oder mehrere) - das sind Millionen von Wörtern. Und für jede denkbare Zahl schließlich gibt es ein Wort, also theoretisch unendlich viele. Auch ist die Sprache in ständiger Bewegung. Alte Wörter gehen unter, neue werden geboren; manche, um nach einmaligem Gebrauch sofort wieder zu sterben.

Eine Obergrenze für den Wortschatz läßt sich also nicht angeben. Wohl aber läßt sich soviel sagen: Ein gebildeter Deutscher kennt an die 100.000 Wörter; selber gebraucht er davon 10.000 bis 30.000. Einige hundert Funktionswörter (das sind Hilfsverben, Konjunktionen, Präpositionen, Artikel, Pronomen - Wörter also, die im Unterschied zu den sogenannten “Inhaltswörtern” - Verben, Substantiven, Adjektiven - kaum eine lexikalische, sondern nur eine grammatische Bedeutung tragen, also klarmachen, in welcher Beziehung die “Inhalts-Wörter” eines Satzes zueinander stehen) machen die Hälfte eines Textes aus. Wer die meistgebrauchten 1.000 deutschen Wörter kennt, kann damit etwa 80 Prozent eines “normalen” -also von Jargon, Fachterminologie, Dialekt, Archaismen und anderen Raritäten freien - Textes verstehen.

1.000 mehr decken weitere 8 Prozent ab; das dritte Tausend noch einmal 4 Prozent, das vierte 2 Prozent. 94 Prozent eines Normaltextes bestehen also aus bloßen 4.000 Wörtern. Um die Trefferquote darüber-hinaus zu vergrößern, erhöhte sich die Zahl der Wörter, die man parat haben müßte, dann aber explosionsartig. (Unter dem Titel “Grundwortschatz Deutsch” - Emst Klett Verlag, Stuttgart - liegt ein eigentlich für den Sprachunterricht bestimmtes Verzeichnis der über 2.000 meistbenutzten deutschen Begriffe vor.)

Der Wortschatz ist also mit einer Kugel zu vergleichen, die einen dichten Kem aus relativ wenigen, aber häufig verwendeten Wörtern hat; nach “außen” hin werden seine Wörter immer seltener. Da kein Spelling-checker je den gesamten deutschen Wortschatz enthalten kann, hängt seine Qualität davon ab, ob er die richtigen, also die häufigsten Wörter enthält. Vor allem muß er zunächst den dichten Kern abdecken - den Grundwortschatz, ohne den auch Fachtexte nicht auskommen. Erst von da aus kann er sich in speziellere Terminologien hinein Vorarbeiten.

Der Spellingchecker zu 1st_Word plus 2.02 enthält den gesamten deutschen Grandwortschatz mit sämtlichen in Frage kommenden flektierten Formen. Darüberhinaus enthält er. weitgehend flektiert, Abertausende von Begriffen vor allem aus den Gebieten Geschäftskorrespondenz, Computersprache, aktuelles Zeitungsdeutsch und allgemeines Schriftdeutsch (wie man es etwa in einem Roman finden würde). Die deutsche Idiomatik wurde dabei stark berücksichtigt. Darum sind in ihm auch Wörter wie Aushängeschild. Denkzettel, Hinterhand, Höhenflug, Mottenkiste, Wässerchen verzeichnet, die praktisch nur in stehenden Redewendungen Vorkommen. Die deutschen Funktionswörter sind nahezu vollständig enthalten.

Seine 97.000 Einträge sind nun aber leider keine 97.000 Lexeme (und alle deutschen Spellingchecker stapeln hoch, wenn sie Einträge und Lexeme gleichsetzen). Es sind nur etwa 25.000. Und das hat mit einer Eigenart der deutschen Sprache zu tun. Sie ist noch weitgehend “synthetisch”:

Sie macht grammatische Bezüge innerhalb eines Satzes durch die Flexion (Beugung) von Verben, Substantiven und Adjektiven kenntlich. Das heißt, die meisten Wörter der deutschen Sprache verändern sich je nach dem grammatischen Zusammenhang, in dem sie auftreten. Für das Lexikon des Spellingcheckers aber ist jede dieser flektierten Formen ein anderes Wort. Das macht denn auch den Hauptunterschied zwischen einem gedruckten Rechtschreib-Wörterbuch wie dem “Duden” und einem Spellingchecker aus: Jener verzeichnet nur die Lexeme, dieser muß dazu auch noch die flektierten Formen enthalten.

Die englische Sprache ist dagegen wesentlich “analytischer”: Ihre Wörter werden kaum flektiert. Ein englischer Spellingchecker benötigt für den Begriff “Mann” beispielsweise nur zwei Einträge, man und men. Ein deutscher braucht deren fünf: Mann, Mannes, Manne, Männer, Männern, eventuell auch noch Mannen. Das Deutsche tut einem nur in seltenen Fällen wie Milch diesen Gefallen. Adjektive und ihre Steigerungsformen sind im Englischen unveränderbar: big lautet in allen Fällen und Numeri big. Im Deutschen dagegen kommen sie in sechs Formen vor: groß, große, großem, großen, großer, großes. Am krassesten aber zeigt sich der Unterschied zwischen den beiden Sprachen bei den Verben. Im Englischen können sie nur in vier oder fünf Formen Vorkommen: speak, speaks, spoke, spoken, speaking. Im Deutschen sind es bis zu fünfzehn: spreche, sprichst, spricht, sprechen, sprecht; sprach, sprachst, spracht, sprachen; spräche, sprächest, sprächet, sprächen; sprechend, gesprochen. Dazu kommen gegebenenfalls noch die Substantivierungen (des Sprechens). Und die Partizipien müssen flektiert werden, wenn sie adjektivisch gebraucht werden können: sprechende, sprechendem, sprechenden, sprechender, sprechendes; gesprochene, gesprochenem, gesprochenen, gesprochener, gesprochenes). Das sind 26 Formen, wo das Englische mit fünfen auskommt. Eines der Verben mit den meisten Ableitungen dürfte verderben sein. Es gibt allein 6 Substantive mit subtilen Bedeutungsunterschieden (das Verderben, die Verderbnis und die Verderbtheit, der Verderb, die Verderblichkeit und die Verdorbenheit), 5 Adjektive (verderbt, verdorben, verderblich, verderbend, verderbenbringend) und 13 konjugierte Formen des Verbs.

Leider wäre es eine völlige Verkennung der Sachlage, wollte man annehmen, daß die meisten dieser Formen "ja doch so gut wie nie Vorkommen” - und sich darum mit der Aufnahme einer einzigen Form, etwa des Infinitivs (hochhalten) begnügen.

Alle kommen sie vor, und alle mit etwa der gleichen Wahrscheinlichkeit. Nur die Formen der persönlichen Anrede (du meinst, ihr meint; du meintest, ihr meintet) sind bei jenen Verben, die nur oder vorwiegend unpersönlich gebraucht werden, und bei unpersönlichen Texten allenfalls entbehrlich. Angenommen, irgendein Begriff (sagen wir zerbrechen) kommt im Deutschen wie im Englischen mit einer Wahrscheinlichkeit von 1:5.000 vor. Der englische Spellingchecker kann sich mit fünf Formen begnügen: break, breaks, broke, broken, breaking. Der deutsche braucht 25. Man kann also billigerweise erwarten, jede Form des Begriffs in einem englischen Spellingchecker von 25.000 Einträgen vorzufinden, während man einen ähnlichen Anspruch an einen deutschen eigentlich erst bei einem Bestand von 125.000 Einträgen stellen dürfte. Nur wenig überspitzt kann man sagen, daß eine deutsche Rechtschreibhilfe so gut ist wie die Zahl der konjugierten Verbformen, die sie enthält.

Noch zahlreicher sind die flektierten Formen, die die zusammen-gesetzten Verben des Deutschen annehmen können. Diese sind Legion: ausführen, hochheben, verkennen, nahekommen, emporsehen, entgegennehmen... Eine einzige Präposition wie ab bildet das Präfix zu über 200 Verben. Allein von einem einzigen Vielzweckverb wie stellen gibt es 39 Abkömmlinge und sicher noch ein paar vergessene mehr: abstellen, anstellen, aufstellen, ausstellen, beistellen, beiseitestellen, bereitstellen, bestellen, bloßstellen, dahinstellen, darstellen, dazustellen, durchstellen, einstellen, entgegenstellen, entstellen, erstellen, gegenüberstellen, gleichstellen, herstellen, heraussteilen, hintanstellen, hinstellen, hoch-steilen, kaltstellen, nachstellen, quer-steilen, richtigstellen, tiefstellen, überstellen, umstellen, unterstellen, verstellen, vorstellen, warmstellen, wegstellen, zufriedenstellen, zurück-steilen, zustellen; plus die diversen Abkömmlinge der Abkömmlinge, wie neuzustellen oder wiederherstellen; plus etliche Verben, von denen man nicht genau sagen kann, ob es sie wirklich gibt, die aber jederzeit gebildet werden können: (he)ranstellen, (he )rauf stellen, großstellen, kleinstellen, rausstellen, (he)reinstellen... Die meisten Verben dieses Schlags treten in zusammengesetzter und dazu in auseinandergerissener Form auf: wenn er zustellt, er stellt zu. Das bedeutet, daß der Spellingchecker eine zusätzliche Infinitivform (zuzustellen) und sämtliche flektierten Formen auch des zugrunde-liegenden Verbs enthalten müßte. Im Fall von stellen wird er dies ohnehin enthalten. Aber bei Verben wie ausmerzen oder einschränken gibt es *merzen oder * schränken für sich allein genommen gar nicht. So kommen Verben vor, für die nahezu 50 Einträge erforderlich sind.

Eine zweite für einen Spellingchecker ungünstige Eigenschaft der deutschen Sprache ist ihre Art, zusammengesetzte Wörter in großer Zahl zu bilden. Das Englische stellt sie zumeist unverbunden nebeneinander: Urne blossom tea. Das Deutsche leimt sie zusammen: Lindenblütentee. Das heißt, ein englisches Orthographielexikon braucht nur die Grundbausteine aufzuführen (lime, blossom, tea), die das deutsche natürlich ebenfalls haben muß; aber jede Zusammensetzung ergibt im Deutschen ein zusätzliches Lexem. Im Falle Linde, Blüte, Tee kämen mindestens zwei dazu: Lindenblüte und eben Lindenblütentee. Sollte es aber vielleicht, wenn auch nicht Teelinde und Lindentee, so doch noch Blütentee und Teeblüte geben? Viele Komposita werden im Deutschen ad hoc gebildet, Wörter wie Konjunkturhimmel, Mäusesheriff oder Spaghettiplausch. Sie gehen meistens nie wirklich in den Wortschatz ein. Kein Lexikon kann sie erfassen oder gar voraussehen.

Alles dies macht, daß eine deutsche Rechtschreibhilfe viel problematischer ist als eine englische (oder französische oder spanische). In Zahlen ausgedrückt: Ein englischer Spelling-checker braucht pro Lexem etwa 1,5 Einträge - ein deutscher jedoch etwa 4. Das heißt, ein deutscher muß mehr als doppelt so umfangreich sein, wenn er so leistungsfähig sein will wie ein englischer. Und dann hätte er noch immer nicht alle jene Komposita intus, die die deutsche Sprache bildet, wo die englische nur deren Bausteine nebeneinander stellt. Man kann nur schätzen, daß ein deutscher insgesamt die dreifache Länge brauchte. Dazu kommt, daß deutsche Wörter länger sind; sie bestehen im Durchschnitt aus IO Buchstaben, englische nur aus 7,5. Ein deutscher Spelling-checker braucht auch noch darum mehr Speicherplatz. Der gesamte allgemeine deutsche Wortschatz (220.000 Lexeme) bildete fast eine Million Einträge. Bei einem Speicherbedarf von 1,5 Byte pro Eintrag (komprimiert) belegte ein Spelling-checker, der sie alle enthielte, 1,5 Megabyte. Und für den Inhalt des Rechtschreib-'’Duden" mit seinen 160.000 Stichwörtern wäre immer noch 1 MB nötig. Ein Weg, den Speicherbedarf eines deutschen Spelling-checkers kleiner zu halten, wäre der Einbau eines Parsers. Ein Parser (wörtlich: Zergliederer) ist ein Programm, das Sprache (morphologisch, syntaktisch und semantisch) analysiert. Er erkennt im Idealfall ein Wort in allen Formen, die es grammatisch annehmen kann, und kann aus einer gegebenen Form alle anderen ableiten. Es müßten also nicht mehr alle flektierten und zusammengesetzten Formen im Lexikon stehen - der Parser bildete sie bei Bedarf selber, so wie das menschliche Gehirn sie bildet. Ein guter Parser erfordert aber nicht nur einen so hohen Programmieraufwand, daß er für den normalen Anwender einer Textverarbeitung unerschwinglich würde. Er kann auch nicht von jedermann ohne weiteres bedient werden; wer ihn füttert, braucht einiges an linguistischem Fingerspitzengefühl - sonst erzeugt er falsche Formen zuhauf. Ein Parser, der erkennen kann, daß *himmels-fahrtskommando, *himmelsfahrt-kommando und *himmelfahrtkom-mando allesamt einen Tippfehler enthalten, wäre keine Kleinigkeit. Alles dies erklärt, warum eine deutsche Rechtschreibhilfe, die etwa 97.000 Einträge oder 25.000 Lexeme enthält und damit 176 KBytes belegt, so manchen Wunsch offen lassen muß.

Und nichts ist leichter, als einen. Spellingchecker seine Lücken vorzuhalten: Man muß ihn nur auf irgende: nen Text ansetzen und warten, bis e: bei irgendeinem Wort stoppt, das einem bekannt vorkommt. Es wird immer wieder Wörter geben, “die der Computer ja eigentlich kennen sollte“ und die er nicht kennt. Je spezieller der Wortschatz eines Textes ist, um so öfter wird der Spellingchecker blinden Alarm geben. Hier hilft nur: ihr genauer an die eigenen Bedürfnisse anzupassen, indem man sich spezielle Ergänzungslexika (als .SUP-Datei-en) anlegt. Wenn sie nicht länger als 100 Einträge sind, sind sie schnell geladen.Ein Ergänzungslexikon mit ca. 23.000 systematisch flektierten Einträgen in 290K (unkomprimiert), welches das SPELLING.DIC von 1st_Word plus 2.02 auf 120.000 Einträge erweitert, kann gegen einen Unkostenbeitrag von 15 DM per Nachnahme vom Verfasser bezogen werden:

Dieter Zimmer Erikastraße 81a 2000 Hamburg 20



Aus: ST-Computer 06 / 1988, Seite 140

Links

Copyright-Bestimmungen: siehe Über diese Seite