\documentstyle[sigerman,12pt]{article}

\documentstyle[sigerman,12pt]{article}

\parskip0.5ex plus0.3ex minus0.2ex

\newcommand{\sisisi}{{\it SiSiSi\/}}
\newcommand{\lexikon}{{\it LEXIKON\/}}
% \newcommand{\sitex}{{\it Si}\/\TeX}
% \newcommand{\isitex}{{\it iSi}\/\TeX}
\newcommand{\sitex}{S\raisebox{0.5ex}{I}\TeX}
\newcommand{\isitex}{\raisebox{-0.5ex}{I}S\raisebox{0.5ex}{I}\TeX}

\setcounter{page}{0}

\input{transfig}

\begin{document}

\renewcommand{\thefootnote}{\fnsymbol{footnote}}
\title{\protect\isitex\\
Interaktive Silbentrennung f"ur die deutsche Sprache unter \TeX\
3.14 und 3.141 unter UNIX\footnote[2]{UNIX ist Markenzeichen von AT\&T}}
\renewcommand{\thefootnote}{\arabic{footnote}}
\author{W. Barth \and H. Steiner \and H. Herbeck}

% \onecolumn

\thispagestyle{empty}
\tableofcontents

\maketitle

\begin{abstract}
Das speziell f"ur
deutschsprachige Texte entwickelte \sisisi
\begin{center}{\it
SICHERE\\
SINNENTSPRECHENDE\\
SILBENTRENNUNG
}\end{center}
kann jetzt in \TeX\ und \LaTeX\ benutzt
werden. Es gibt f"ur UNIX change--files und alle anderen
notwendigen Files auf dem anonymous--FTP--server {\tt eiunix.tuwien.ac.at}.
Dort findet man auch
eine Installationsanleitung, mit der man das System leicht
installieren kann. Dadurch wird ein
neues System erzeugt, das das neue
Verfahren f"ur die Silbentrennung
verwendet. Alle anderen \TeX --Funktionen bleiben
unver"andert.

Es gibt zwei Varianten:
Das einfache \sitex\ und das
interaktive, voll ausgebaute \isitex. Das einfache \sitex\ kann nach der
Installation genauso wie das urspr"ungliche \TeX\ verwendet werden. Es hat
aber den Vorteil, da"s es auch bei unerwarteten Wortzusammensetzungen keine
falschen Trennstellen erzeugt. Welche zus"atzlichen M"oglichkeiten
\isitex\ bietet, ist in diesem Bericht beschrieben.
\end{abstract}

% \twocolumn

\section{Terminologie}
\begin{description}
\item[{\rm \TeX}] ist Donald E.
Knuths Formatierungsprogramm f"ur
Texte \cite{KnuthProg},
\cite{KnuthBook}.

\item[\LaTeX] ist das von Leslie Lamport entwickelte Makro--Paket
zu \TeX , das im deutschsprachigen Raum meist verwendet wird
\cite{Lamport}, \cite{Kopka}. Ab sofort gilt \TeX\ synonym f"ur
\TeX\ und \LaTeX, und
die im folgenden beschriebenen Erweiterungen \sitex\ und \isitex\
k"onnen sowohl auf \TeX\ als auch auf \LaTeX\ angewendet werden.

\item[{\rm \sitex}] ist eine Variante von \TeX\ f"ur deutschsprachige Texte,
die durch Austausch der "`hyphenation"' durch das von W.~Barth und
H.~Nirschl entwickelte Verfahren zur "`sicheren
sinnentsprechenden Silbentrennung (\sisisi)"' f"ur die deutsche
Sprache \cite{BarthNi}, \cite{BarthNi2} entstanden ist.

\item[{\rm \isitex}] ist eine um einige zus"atzliche M"oglichkeiten,
insbesondere interaktive Komponenten, erweiterte Form von \sitex.
\end{description}

\section{SiSiSi}
In der deutschen Sprache verwendet man gern lange,
zusammengesetzte W"orter, wie z.B.:
\begin{quote}
Text=verarbeitungs=system oder
Silben=trennungs=verfahren.
\end{quote}
Wenn solche riesigen Gebilde nicht
am Ende einer Zeile
abgeteilt werden k"onnen, entsteht meist ein sehr
unsch"ones Schriftbild. Das Hauptproblem bei der Silbentrennung
ist das Finden der Nahtstellen (durch "`="' angezeigt) zwischen den
Einzelw"ortern. Die Trennstellen
innerhalb der Einzelw"orter lassen sich
relativ leicht mit den im Duden
\cite{duden} angegebenen Regeln
ermitteln. \sisisi\ findet die
Zerlegung der W"orter mit Hilfe einer Worttabelle,
genauer einer Tabelle aller Wortbestandteile: Vorsilben,
St"amme und Endungen. Weniger als 8000 Eintragungen reichen aus, um
fast alle deutschen W"orter und die g"angigen Fremdw"orter zu
erfassen. Durch die Abst"utzung des Verfahrens auf eine Worttabelle
ist es nat"urlich m"oglich, auch mit unvorhersehbaren,
ungew"ohnlichen Wortunget"umen fertig zu werden. Dieses
Zerspalten zusammengesetzter W"orter mit einer einfachen,
"uberschaubaren Methode bringt wesentliche Vorteile gegen"uber
dem aus dem Amerikanischen "ubernommenen pattern--Verfahren.

\sisisi\ sucht nach allen m"oglichen
Zerlegungen eines Wortes. Bei manchen
gibt es mehr als eine, wie z.B.:
\begin{quote}
Bau=mast/Baum=ast oder
Stau=becken/Staub=ecken.
\end{quote}
Wir bezeichnen das als
{\bf Mehrdeutigkeit}. St"o"st \sisisi\ auf eine solche
Mehrdeutigkeit,
so nutzt die einfachere Implementierung \sitex\ die zweifelhafte Trennstelle
nicht aus. Dadurch wird sichergestellt, da"s keine falschen Trennungen
entstehen. Das interaktive
\isitex\ h"alt w"ahrend der Bearbeitung
des Dokuments bei
jedem solchen mehrdeutigen Wort an, zeigt dem Benutzer alle
m"oglichen Zerlegungen und erlaubt ihm, die passende
auszuw"ahlen.

Falls \sisisi\ f"ur ein Wort keine Zerlegung findet, dann handelt
es sich dabei entweder um ein sehr ausgefallenes Wort (z.B.\
Eigennamen oder "ahnliches), das nicht
in der Worttabelle enthalten ist, oder das Wort wurde falsch
geschrieben. Wir sprechen von einem
{\bf unbekannten
Wort}. Auch in diesen F"allen wird
durch \sitex\ nicht getrennt, die
Silbentrennung bleibt sicher. \isitex\ erlaubt aber
dem Benutzer, je nachdem welcher Fall
vorliegt, das unbekannte Wort zu
korrigieren oder in die Worttabelle einzutragen.

\sisisi\ unterst"utzt eine
sinnentsprechende Trennung, indem es
die {\bf Haupt\-trenn\-stellen} an
den Nahtstellen
zusammengesetzter W"orter gegen"uber
den Nebentrennstellen in den
Einzelw"ortern bevorzugt.

Diese Bevorzugung wird durch
Strafpunkte (penalties) gesteuert.
Defaultm"a"sig erhalten die
Nebentrennstellen einen h"oheren Wert
als die Haupttrennstellen. Diese
Relation kann aber von einem erfahrenen Benutzer durch
den neuen \TeX--Befehl \verb/\nebenhyphenpenalty/ f"ur seine
Installation ge"andert werden. Aber das wird f"ur normales
Arbeiten kaum notwendig sein.

\section{Kurzbeschreibung des Trennverfahrens}

Jedes Wort ist eine Folge von einem oder mehreren
Einzelw"ortern. Jedes Einzelwort besteht aus beliebig vielen
Vorsilben (eventuell auch keinen), gefolgt von genau einem Stamm,
abgeschlossen durch beliebig viele Endungen (ersatzweise
Fugenzeichen). Eine Worttabelle enth"alt alle diese erw"ahnten
Wortbestandteile (Morpheme).

Der Algorithmus sucht f"ur jedes Wort, das eventuell getrennt
werden soll, systematisch nach allen Zerlegungen, die nach der
angegebenen Grammatik m"oglich sind. Dabei erkennt er durch
Nachschauen in der Wort\-tabelle, ob ein betrachtetes Teilst"uck
des Wortes ein Wortbestandteil im erw"ahnten Sinn ist und
gegebenenfalls von welcher Art es ist.

Auf diese Weise findet der Algorithmus f"ur jede Zerlegung alle
Haupttrennstellen, n"amlich zwischen der letzten Endung eines
Teilwortes und der folgenden Vorsilbe, bzw.\ dem folgenden Stamm.
Au"serdem erkennt er auch sofort alle Nebentrennstellen hinter
den Vorsilben. F"ur den Rest jedes Einzelworts, bestehend aus
Stamm und Endungen, mu"s man die Duden--Regeln f"ur die Silbentrennung
anwenden. Das sind solche Regeln wie "`In einer Folge von
Konsonanten ist vor dem letzten zu trennen"', z.B. tre-ten,
F"ul-lungen, k"amp-fen. Diese Regeln sind mit all ihren
Ausnahmen, z.B. Sonderbehandlung von st und ck, vollst"andig in
\sisisi\ eingearbeitet. Ebenso wird schon bei der Zerlegung in
Einzelw"orter die
3--Konsonanten--Regel ber"ucksichtigt.

Es gibt W"orter, Fremdw"orter, die nicht nach
den Duden--Regeln getrennt werden, z.B. Pro-gramm oder
Pan-orama. In diesen F"allen ist in der Worttabelle der Stamm
als "`Ausnahme"' deklariert und die m"oglichen Trennstellen sind
angegeben. Der Algorithmus ber"ucksichtigt nat"urlich solche
Angaben. Eine ausf"uhrliche Beschreibung des Verfahrens findet sich in
\cite{BarthNi}.

\section{Mehrdeutigkeiten}
Nun gibt es im Deutschen das Problem,
da"s viele, meist
zusammengesetzte, W"orter existieren, die verschieden interpretiert
und daher auch auf verschiedene Arten getrennt werden k"onnen.
Das ergibt dann, sofern der Algorithmus eine unpassende
Trennstelle w"ahlt, sinnentstellende Abtrennungen, die das
fl"ussige Lesen erschweren. Einige Beispiele:
\begin{quote}
Wachs=tube/Wach=stube

Bau=mast/Baum=ast

Personal=mangel/Person=alm=angel

Spiel=ende/spie-lende
\end{quote}
Alle anderen
Trennverfahren, die die Einzelbestandteile von zusammengesetzten
W"ortern (die "`Morpheme"') nicht
erkennen (also auch die "`pattern--Methode"'), finden diese Mehrdeutigkeiten
nicht. \sisisi\ (in \sitex) hingegen nutzt solche unsicheren
Trennstellen generell nicht aus. Im Beispiel "`Bettruhe"' wird
die angegebene Haupttrennstelle ignoriert. Nur die sichere
Nebentrennstelle "`Bettru-he"' kommt in Frage. Hat man aber nur
wenige sichere Trennstellen in langen, zusammengesetzten W"ortern,
so k"onnen in manchen Zeilen (bei Randausgleich) gro"se L"ucken
bzw.\ "`Stauchungen"' entstehen. Das Schriftbild wird unsch"on,
h"aufig tritt die \TeX--Warnung "`underfull hbox"' auf.

Dieses Problem wird in \isitex\ durch interaktives Eingreifen in
den Produktionsvorgang gel"ost. Trifft \isitex\ auf ein
mehrdeutiges Wort, so werden dem
Benutzer alle m"oglichen Zerlegungen am
Bildschirm angezeigt, soda"s er die in seinem Kontext sinngem"a"se
ausw"ahlen kann. Diese Wahl mu"s f"ur ein solches mehrdeutiges
Wort nur einmal getroffen werden, d.h.\ bei weiteren Vorkommen
desselben Wortes in demselben Dokument
soll dann immer automatisch
diese richtige Trennung gew"ahlt werden. Dieser Forderung liegt
die Erfahrung zugrunde, da"s ein
mehrdeutiges Wort praktisch nie in
demselben Dokument in verschiedenen
Bedeutungen vorkommt. Au"serdem sind
viele der von \sisisi\ "`erkannten"'
Mehrdeutigkeiten im "ublichen Wortschatz nicht gebr"auchlich
(siehe das Beispiel: Person=alm=angel). Weiters werden auch f"ur
weitere Durchl"aufe (nach erneutem Editieren) die richtigen
Trennstellen gemerkt und wieder verwendet.

F"ur den Sonderfall, da"s ein mehrdeutiges Wort in mehreren
Bedeutungen vorkommt, z.B. "`In der Wachstube liegt eine
Wachstube"', gibt es die beiden folgenden M"oglichkeiten:
\begin{itemize}
\item Man macht "uberhaupt nichts. Dann werden nur die sicheren
Trennstellen ausgenutzt. Es entstehen keine Trennfehler,
allenfalls wird das Schriftbild etwas unruhig.
\item Mit dem \TeX--Befehl \verb/\-/ tr"agt man beim Editieren
bei allen (oder auch nur bei einigen ausgew"ahlten) Vorkommen
des Wortes alle Trennstellen (oder nur einen Teil davon) ein.
\isitex\ nutzt dann diese vorgegebenen Trennstellen aus, sucht
aber in jedem Wort, das eine solche
Vorgabe enth"alt, nicht nach
weiteren Trennstellen.
\end{itemize}

Aber noch ein Vorfall mu"s beachtet werden. Wie kann der
Benutzer, der irrt"umlich f"ur ein mehrdeutiges Wort eine
falsche Trennvariante ausgew"ahlt hat, diesen Fehler wieder
beseitigen? Bei jedem weiteren Durchlauf l"auft das Programm ohne Halt
"uber alle Vorkommen dieses Wortes hinweg, es h"alt ja das
Problem dieser Mehrdeutigkeit f"ur
gel"ost. Deshalb wurde in
\isitex\ am Anfang der Behandlung des Dokuments ein Halt
eingef"ugt, bei dem der Benutzer aufgefordert wird, etwaige
Fehler aus vorherigen Durchl"aufen wieder zu beseitigen.

\section{Unbekannte W"orter}

Alle W"orter, f"ur die \sisisi\ keine Zerlegung findet, sind
{\bf unbekannte W"orter}. Das
sind W"orter, die einen Schreibfehler
enthalten, aber auch solche, die richtig
geschrieben, dem \sisisi--Algorithmus aber noch unbekannt sind
(d.h.\ die noch nicht in der
Worttabelle sind). Die einfache L"osung
von \sitex\ lautet: Solche Worte werden nicht getrennt. Die
Folgen sind die gleichen wie bei mehrdeutigen W"ortern:
L"ucken, Stauchungen, "`underfull
hbox"' --- und wieder aus
einem f"ur den Autor des Dokuments
unerkl"arlichen Grund. Aber dennoch
k"onnen keine Trennfehler entstehen!

Das interaktive \isitex\ bleibt bei
jedem unbekannten Wort stehen. Der Benutzer
kann jetzt entscheiden, ob es sich um
einen Tippfehler oder
wirklich um ein unbekanntes Wort, d.h.\ um einen Namen, eine
Abk"urzung, ein ausgefallenes Fremdwort oder etwas "Ahnliches
handelt.
Diese "`neuen W"orter"' sollen nur einmal als unbekannt gemeldet
werden, also in den folgenden Produktionsl"aufen desselben
Dokuments als bekannt akzeptiert werden. Tippfehler sollen
hingegen immer angezeigt werden.

Da aber ein Eingriff in das gerade bearbeitete \TeX--File nicht
m"oglich ist (d.h.\ ein sofortiges Ausbessern der Tippfehler im
Dokument ginge weit "uber den Einflu"sbereich der Silbentrennung
hinaus und w"urde weitreichende Eingriffe in \TeX\ erfordern),
speichert \isitex\ die vom Benutzer als "`Tippfehler"' bezeichneten W"orter
in einem File, das man beim n"achsten Editieren als
Ged"achtnisst"utze verwenden kann.

Welche neuen M"oglichkeiten \isitex\ bietet,
ist zusammenfassend in Abbildung~\ref{bild1} dargestellt.

\begin{figure}
\input{inst_ber.fg1}
\caption{\label{bild1} Die neuen M"oglichkeiten}
\end{figure}

\section{\protect\isitex\ intern: Die neuen Files}
\label{kapitel6}

Um die obigen Erweiterungen zu erm"oglichen,
werden die entsprechenden Informationen in
drei Files gespeichert. "`doku"' steht im Folgenden f"ur
den Namen des gerade bearbeiteten
Dokuments.
\begin{itemize}
\item {\bf doku.mem}: Der Benutzer w"ahlt bei mehrdeutigen W"ortern
die passende Bedeutung
aus. Diese Wahl wird in \verb/doku.mem/ gespeichert.
Von jetzt an werden
alle Vorkommnisse dieses Wortes entsprechend dieser
Festlegung getrennt.
Achtung! Kommt ein Wort mit verschiedenen
Endungen im Text vor, so
wird f"ur jede Variante extra gefragt.
(Kommt also in einem Dokument zB. dreimal
"`Wachstube"' und f"unfmal "`Wachstuben"' vor,
so mu"s der Benutzer je einmal die
richtige Trennung f"ur "`Wachstube"' und
"`Wachstuben"' angeben.) Ebenso werden
alle W"orter, die dem System unbekannt
sind und f"ur das Dokument spezielle
Fremdw"orter oder Namen
darstellen, durch ein Kommando des
Benutzers (eventuell mit den
eingegebenen Trennstellen) in \verb/doku.mem/ gespeichert.
Diese Information wird dann bei allen weiteren
\isitex\ Produktionsl"aufen
ber"ucksichtigt und entsprechend erweitert (wenn beim
weiteren Editieren neue mehrdeutige
oder unbekannte W"orter hinzugef"ugt wurden).
\item {\bf doku.lex}: Bei mehrdeutigen
und insbesondere bei unbekannten
W"ortern, kann sich der
Benutzer dazu entschlie"sen, da"s sie
(zus"atzlich zu der erw"ahnten
Eintragung in \verb/doku.mem/) in die
Worttabelle von \sisisi\ eingetragen
werden sollen. Unbekannte W"orter kommen
daher automatisch und mehrdeutige
W"orter auf Wunsch in das File
\verb/doku.lex/, damit sie leicht mit dem "`\lexikon--System"' am
PC in die Worttabelle eingetragen
werden k"onnen. So ist
es dem Benutzer m"oglich, eine
spezielle Worttabelle f"ur seinen
pers"onlichen Wortschatz zu schaffen.

\item {\bf doku.edt}: Alle als Tippfehler erkannten W"orter
werden in das File \verb/doku.edt/
geschrieben. Dieses File unterscheidet sich
grunds"atzlich von den beiden obigen. Eintragungen in diesem
File werden nicht automatisch f"ur weitere Vorkommen
desselben Wortes und
auch nicht f"ur weitere Durchl"aufe verwendet. Es ist
als "`Merkfile"' des
Benutzers f"ur das n"achste Editieren
gedacht. Er kann es daher anschauen, ausdrucken,
editieren und l"oschen.
Weiters wird dieses File bei jedem
Durchlauf neu angelegt. Das ist sinnvoll, weil
Tippfehler ja nicht hingenommen werden sollen (weder von \isitex\
noch vom Benutzer). Es werden
also immer alle Tippfehler gemeldet. Das wiederholte
Aufmerksammachen ist durchaus beabsichtigt.
\end{itemize}
Die Files \verb/doku.mem/ und
\verb/doku.lex/ d"urfen nicht vom Benutzer
ver"andert werden, weil sie vom System
wieder verwendet werden.
\verb/doku.edt/ darf ge"andert oder
zerst"ort werden.

\section{Wie erzeugt man ein
druckfertiges Manuskript mit
\protect\isitex ?}

Beim \underline{ersten Editieren} bereitet
man das Manuskript genauso wie f"ur
"`normales"' \TeX\ auf. Die
Befehle f"ur die Fonts, die
Formate, usw.\ f"ugt man in den Text ein.

Beim \underline{ersten Durchlauf} durch
das \isitex--System beantwortet man die Fragen
des Systems bez"uglich mehrdeutiger und
unbekannter W"orter sinnvoll. Es entstehen die Files
\verb/doku.mem/, \verb/doku.lex/ und
\verb/doku.edt/ (siehe Abbildung
\ref{bild2}).

Im allgemeinen wird man
auch das entstandene
\underline{File drucken},
um weitere Hinweise f"ur Korrekturen im
Manuskript zu erhalten. In diesem
Ausdruck sind schon alle Trennstellen
ber"ucksichtigt, die man ---~wie in
Kapitel~\ref{kapitel6} beschrieben~---
an das File
\verb/doku.mem/ gemeldet hat.

Jetzt kann man die
\underline{Worttabelle} mit dem System
\lexikon\ erweitern. Man wird (siehe
Kapitel~\ref{kapitel10}) alle speziellen
W"orter dieses Dokuments, bzw.\ des
Fachvokabulars eintragen. \lexikon\
benutzt dabei das File \verb/doku.lex/.

Danach erfolgt das \underline{n"achste
Editieren}. Mit den Hinweisen aus dem
File \verb/doku.edt/ und den
Erkenntnissen vom Korrekturlesen wird
man insbesondere alle Tippfehler
korrigieren, aber auch andere
Korrekturen im Manuskript vornehmen.

Beim folgenden \underline{n"achsten Durchlauf}
bleibt das System nicht mehr bei
allen mehrdeutigen und unbekannten
W"ortern, die in einem fr"uheren
Durchlauf in \verb/doku.mem/
eingetragen wurden, stehen. Am
Anfang dieses Durchlaufs gibt es jedoch
Gelegenheit, fr"uhere
falsche Festlegungen zu l"oschen. Neue
mehrdeutige oder unbekannte W"orter
(auch alte Tippfehler) werden wie im
ersten Durchgang behandelt.

Diese Vorg"ange werden solange
wiederholt, bis die Qualit"at des
gedruckten Manuskripts den Anspr"uchen
gen"ugt.

Die Wege, die die Daten nehmen, sind in
Abbildung~\ref{bild2} zusammenfassend
dargestellt.

\begin{figure}
\input{inst_ber.fg2}
\caption{\label{bild2} Die Wege der Daten}
\end{figure}

\section{"`xxx"' ist ein mehrdeutiges Wort! --- was tun?}

Wenn \isitex\ ein mehrdeutiges Wort findet, dann
sieht das folgenderma"sen aus (am Beispiel des
Wortes "`Wachstube"'):
\begin{verbatim}
`wachstube' ist ein mehrdeutiges Wort!
0: nur die sicheren Trennstellen waehlen (`wachstu-be')
1: `wach=stu-be'
2: `wachs=tu-be'
9: Tippfehler! - merken im File `doku.edt'
Bitte waehlen Sie eine Bedeutung z.B. `0'+`Enter' aus:
(zusaetzlich E z.B. `0E'+`Enter':
Wort auch fuer LEXIKON vormerken)
\end{verbatim}
Nun mu"s man eine Ziffer gefolgt von "`Enter"'
eingeben. Ist z.B. die Bedeutung "`Wach=stube"'
die gemeinte, so gibt man "`1"'+"`Enter"' ein. Ab
jetzt wird das Wort "`Wachstube"' im ganzen Dokument und
auch in k"unftigen Durchl"aufen entsprechend getrennt. Tritt der
"uberaus seltene
Fall auf, da"s ein Wort tats"achlich in mehreren
Bedeutungen in ein und demselben Dokument
vorkommt, so kann man sich durch "`0"'+"`Enter"' auf
die sicheren Trennstellen beschr"anken. Will
man das Wort sp"ater auch in die Worttabelle eintragen,
so gibt man zus"atzlich noch ein "`E"' an (also zB. "`1E"'+"`Enter"' statt
"`1"'+"`Enter"'). Dadurch wird das Wort
zus"atzlich in das File \verb/doku.lex/ eingetragen, das
die Arbeit mit dem Lexikon--System
erleichtert. Gibt man "`9"'+"`Enter"' ein, so wird
das Wort nur (!) ins File \verb/doku.edt/ geschrieben
und kann dann beim Editieren von
\verb/doku.tex/ gesucht und ausgebessert werden.

\newpage

\section{"`xxx"' ist ein unbekanntes Wort! --- was tun?}

Wenn \isitex\ ein unbekanntes Wort findet, dann
sieht das folgenderma"sen aus (am Beispiel des
Wortes "`Acetylsalicyls"aure"'):
\begin{verbatim}
`acetylsalicyls"aure' ist ein unbekanntes Wort!
0: neues Wort, merken in `doku.lex'
1: neues Wort, Trennstellen angeben und merken in `doku.lex'
9: Tippfehler! - merken im File `doku.edt'
Bitte waehlen Sie eine Bedeutung (0,1,9) aus:
\end{verbatim}
Nun mu"s man eine Ziffer gefolgt von "`Enter"'
eingeben. Ist das Wort beispielsweise ein kurzes Fremdwort,
so gibt man "`0"'+"`Enter"' ein. Ab
jetzt ist das Wort bekannt; es wird jedoch
nicht getrennt. Es wird in den Files
\verb/doku.mem/ und auch \verb/doku.lex/
gespeichert, um es nachher eventuell
mit dem \lexikon--System leicht in die
Worttabelle eintragen zu k"onnen. Handelt es
sich bei dem unbekannten Wort aber um ein
langes (zusammengesetztes) fremdes
Wort, so ist
es --- aus den oben genannten Gr"unden --- sinnvoll,
Trennstellen vorzugeben. Zu diesem Zweck
tippt man "`1"'+"`Enter"'. Daraufhin erscheint dann
folgende Eingabeaufforderung:
\begin{verbatim}
Bitte den Trennvektor angeben
(`-' Nebentrennstelle, `=' Haupttrennstelle, `.' Weiterruecken,
Trennstrich unter dem Buchstaben angeben, hinter dem
getrennt werden soll):
acetylsalicyls"aure
\end{verbatim}
Nun kann man direkt unter dem Wort die Trennstellen angeben:
\begin{verbatim}
acetylsalicyls"aure
.-..=.-.-..=...-
\end{verbatim}
Nachdem man "`Enter"' gedr"uckt hat, ist
"`acetylsalicyls"aure"' bekannt und wird gegebenenfalls
"`ace-tyl=sa-li-cyl=s"au-re"' getrennt.

Als dritte Wahlm"oglichkeit hat man noch "`9"'+"`Enter"'. Dann
wird das Wort ins File "`doku.edt"'
geschrieben und kann dann beim Editieren von
"`doku.tex"' gesucht und ausgebessert werden.

\section{"Anderung der Worttabelle}
\label{kapitel10}

Es ist zu empfehlen, spezielle W"orter
des benutzereigenen Vokabulars auch
wirklich in die Worttabelle
einzutragen. \sisisi\ kennt n"amlich
nach dem Eintragen eines solchen neuen
Wortes auch alle Abwandlungen dieses
Wortes, die durch Voransetzen von
Vorsilben oder auch Anf"ugen von
Endungen entstehen, sowie alle seine
Kombinationen mit anderen W"ortern.
Nat"urlich erkennt \sisisi\ diese
W"orter dann alle richtig und trennt
sie bei Bedarf korrekt.
Beispielsweise sind keine Tiernamen in
der normalen Worttabelle. Tr"agt der
Benutzer, der ein Tierbuch schreibt,
\underline{Fuchs} als Stamm in die
Tabelle ein, dann behandelt \sisisi\
auch Fuchses, Silberfuchs, Fuchsschwanz
und "`es fuchst mich"' korrekt wie
jedes andere Wort. Allerdings m"ussen
F"uchse wegen der Wandlung des u in ein
"u gesondert eingetragen werden.

Man sollte nur neue
Wortst"amme eintragen. Bei
Fremdw"ortern mu"s man jedoch darauf
achten, ob eine Ausnahme zu den
Duden--Regeln vorliegt. Dazu mu"s man
sich naturgem"a"s mit dieser
Problematik befassen, z.B.
\cite{BarthNi}, \cite{BarthNi2} und \cite{duden}. Ausnahmen sind z.B.
Pro-gramm, Kata-strophe, Pin-up-girl,
Pan-ora-ma. Man mu"s recht sorgf"altig
arbeiten.

Man kann folgende Morphem-Arten in die Worttabelle eintragen:\\

\noindent
\begin{tabular}{|r|p{4.8cm}|c|p{5.5cm}|}\hline
& Art & Kurzbezeichnung & Erkl"arung\\ \hline
1 & Stamm & s & normaler Stamm, wird nach Duden--Regeln getrennt\\ \hline
2 & Stamm, nicht geeignet f"ur Wortzusammensetzungen & st & Wie 1, jedoch
kann dieser Stamm nicht mit anderen zu einem zusammengesetzten Wort
verkn"upft werden\\ \hline
3 & Ausnahme & a {\it i j}~~oder~~a {\it i} & Es wird
abweichend von den Dudenregeln nach dem {\it i}-ten und {\it j}-ten
Buchstaben getrennt (und nur dort)\\ \hline
4 & Ausnahme mit Ende--Mar\-kie\-rung & au {\it i k}~~oder~~au {\it k} &
Wie 3, jedoch definiert {\it k} keine Trennstelle, nach dem
{\it k}-ten Buchstaben setzen die Duden-Regeln wieder ein\\ \hline
\end{tabular}
\begin{tabular}{|r|p{4.8cm}|c|p{5.5cm}|}\hline
& Art & Kurzbezeichnung & Erkl"arung\\ \hline
5 & Vorsilbe & v & Nach der Vorsilbe wird ge\-trennt\\ \hline
6 & Endung & e & Die Endung(en) wird mit dem Stamm zusammen den
Duden--Regeln unterworfen\\ \hline
\end{tabular}\\

Die "Anderung der Worttabelle kann man auf eine der folgenden Arten
durchf"uhren:
\begin{itemize}
\item[a)] \underline{mit dem mitgelieferten Lexikon-System auf einem PC}\\
Auf dem PC unterst"utzt Sie ein Dialogsystem beim Einf"ugen der neuen
W"orter. Sie brauchen sich um Einzelheiten der Kodierung nicht zu k"ummern.
Au"serdem zeigt Ihnen das System in jedem Fall zur Kontrolle an, wie
\sisisi\ von nun an die fraglichen W"orter trennen wird.

Nach der "Anderung m"ussen Sie die Worttabelle worttab.htx mit dem
htx2tex--Programm in die unter UNIX "ubliche Kodierung (4 f"ur "a, \dots, 1
f"ur "s) umwandeln. Sie erhalten dadurch das neue File sihyphen.tex.
\item[b)] \underline{durch Editieren des Files sihyphen.tex}\\
Sie k"onnen unmittelbar Eintragungen in der Art vornehmen, wie sie in
obiger Tabelle beschrieben sind. Sie m"ussen dann allerdings die
(benutzerfreundliche ?) Kodierung von UNIX beachten und erhalten auch keine
explizite Angabe dar"uber, wie \sisisi\ die neuen W"orter sp"ater trennen
wird.
\end{itemize}

Nach Abschlu"s dieser "Anderungsarbeiten ist in beiden F"allen a) und b)
\sitex\ bzw. \isitex\ mit initex neu zu initialisieren, so wie das in der
Installationsanleitung von \sitex\ bzw. \isitex\ f"ur UNIX beschrieben ist.

\newpage

\begin{thebibliography}{[8]}
\bibitem{KnuthProg} Knuth, Donald E.: \TeX: The
Program, Addison Wesley, Computers and Typesetting, Vol.\ B
\bibitem{KnuthBook} Knuth, Donald E.: The \TeX book,
Addison Wesley
\bibitem{Lamport} Lamport, Leslie: \LaTeX. A document
preparation system, Addison Wesley
\bibitem{Kopka} Kopka, Helmut: \LaTeX: eine Einf"uhrung,
Addison Wesley
\bibitem{BarthNi} Barth W., Nirschl H.: Implementierung eines
Verfahrens f"ur die Silbentrennung, TU~Wien, Institut f"ur
Praktische Informatik, Bericht Nr.~26, 1985
\bibitem{BarthNi2} Barth W., Nirschl
H.: Sichere sinnentsprechende
Silbentrennung f"ur die deutsche
Sprache. Angewandte Informatik~4,
S.~152--159 (1985)
\bibitem{Dante} Barth W., Steiner H.:
Deutsche Silbentrennung f"ur \TeX\ 3.1,
DANTE, Die \TeX nische Kom"odie, Heft 1/1992
\bibitem{FTP} \sisisi\ f"ur \TeX,
Installationsanleitung, "uber anonymes
FTP am server \verb/eiunix.tuwien.ac.at/.
\bibitem{duden} DUDEN, Rechtschreibung
der deutschen Sprache und der
Fremdw"orter. 19.~ Auflage,
Bibliographisches Institut,
Mannheim/Wien/Z"urich (1986)
\end{thebibliography}

\end{document}