Bild
Aufnahme Rollband

05.02.2016 | Blog Wie Suchmaschinen mithilfe von Wortfamilien erweitert werden können

Was muss eine gute Suchmaschine können? Den Mindestanspruch erfüllen jene Suchfunktionen, die in einem Textverarbeitungsprogramm oder einem Editor üblicherweise mit dem Shortcut Ctrl + F aufgerufen werden - zu wenig für Nutzer, die sich umfangreicher über ein bestimmtes Thema oder über die Verwendung eines bestimmten Wortes informieren möchten. Wie diesen Anwendern durch den Einsatz eines Stem-Thesaurus geholfen werden kann, erfahren Sie im Blogbeitrag von Pascal Zambito.
Über den Mehrwert eines Stem-Thesaurus für optimale Suche und Recherche

Was muss eine gute Suchmaschine können? Den Mindestanspruch erfüllen jene Suchfunktionen, die in einem Textverarbeitungsprogramm oder einem Editor üblicherweise mit dem Shortcut STRG + F aufgerufen werden: Man tippt eine Buchstabenfolge ein und das geöffnete Dokument wird auf alle Vorkommen genau dieser Kombination durchsucht. Auf diese Art und Weise lassen sich eindeutig bestimmte Textstellen innerhalb eines Dokuments schnell und einfach finden.

Wörter bestehen allerdings nicht aus immer gleichen Buchstabenfolgen, sondern sind dynamische Gebilde: sie werden je nach grammatischer Person, Zeit, Kasus oder Geschlecht flektiert. Einem Nutzer, der sich umfangreicher über ein bestimmtes Thema oder über die Verwendung eines bestimmten Wortes informieren möchte, wäre eine solche Suchfunktion deshalb sicherlich zu wenig.

Ein Weg zur Erweiterung der Suche ist demzufolge die Lemmatisierung: ein Feature, das neben der Kompositazerlegung den Kern des Linguistik Plugins von IntraFind ausmacht und das auf dem firmeneigenem Vollformenlexikon basiert. So ist z.B. die Buchstabenfolge “dachtest” im Lexikon ihrer Grundform “denken” zugeordnet, ebenso wie alle anderen möglichen Formen von “denken”. Auf diese Weise kann bei einer Suche nach einer dieser Formen die gesamte Bandbreite gebeugter Wortvarianten (Flexionsparadigma) einbezogen werden.

Wörter sind dynamische Gebilde – nicht nur, weil sie flektiert werden können, sondern auch, weil sie durch sogenannte Wortbildungsprozesse zu neuen Wörtern zusammengeführt werden können. Zu diesen Wortneubildungen stehen sie dann in einer Art Verwandtschaftsverhältnis. Diese Verwandtschaftsbeziehung kann zwischen Wörtern aus ein und derselben Wortart bestehen, wie z.B. zwischen den Substantiven “Chemie” und “Chemiker” oder zwischen Wörtern verschiedener Wortarten wie “Chemie” und “chemisch” oder “kaufen” und “Käufer”.

Eine Gruppe von Wörtern, die in einer solchen Beziehung zueinander stehen, nennt man eine Wortfamilie. In vielen Situationen kann es nützlich sein, bei einer Suche nicht nur das Flexionsparadigma, sondern auch die Wortfamilie miteinzuschließen; denn wer nach “Chemie” sucht, für den könnten auch Suchergebnisse interessant sein, die “Chemiker”, “Chemikalie” und “chemisch” enthalten. Zu diesem Zweck entwickelte IntraFind einen Stem-Thesaurus, in dem die Verwandtschaftsrelation zwischen Mitgliedern einer Wortfamilie hinterlegt ist.

Der Thesaurus ist ein Stem-Thesaurus, weil das Kriterium für die Verwandtschaft ein gemeinsamer Wortstamm ist: ein linguistisch umstrittener Begriff, der sich aber in der Anwendung als derjenige Teil des Wortes definieren lässt, der einer Wortfamilie gemeinsam ist und aus dem durch Anhängen von Prä- oder Suffixen die einzelnen Wörter der Wortfamilie entstehen. Der Wortstamm für unsere “Chemie”-Familie wäre also “chem-”, woran dann die Endungen “-isch”, “-ie” und “-iker” gehängt werden können.

Was ist ein Thesaurus?

Ein Thesaurus oder auch Wortnetz ist ein Begriff aus der Dokumentationswissenschaft. Er enthält Synonyme, Ober- und Unterbegriffe, die ein Themengebiet genau beschreiben und repräsentieren.

Die Untersuchung von Wortbildungsprozessen zeigt, dass es gewisse Regelmäßigkeiten bei der Ableitung von Wörtern aus dem Wortstamm gibt: z.B. entstehen Infinitive fast immer durch ein Anhängen von “-en” oder “-n”, Nomen sehr oft durch das Suffix “-er” oder “-ler”. Die Stämme “spiel-” und “wander-” werden im Infinitiv zu “spiel-en” und “wander-n”, als Nomen zu “Spiel-er” und “Wander-er”.

Regeln dieser Art lassen sich so implementieren, dass ein Teil des Thesaurus automatisch erstellt werden kann. Allerdings wird auch deutlich, dass es in der Sprache zu viele Ausnahmen gibt, als dass man sie einfach mit ein paar zusätzlichen Ausnahmeregeln korrigieren könnte. Während der “Spieler” einfach jemand ist, der spielt, ist die “Leber” nicht eine Person, die lebt.

Besonders schwierig wird die Verwandtschaft bei Vorsilben, welche die Bedeutung des Stammes sehr stark verändern, auch wenn sie durchaus noch mit ihm verwandt sind: “unterschreiben” hat schon etwas mit “schreiben” zu tun, aber es ist doch etwas anderes und sollte bei einer Suchanfrage nicht damit vermischt werden.

Wegen all dieser Ausnahmen ist es sinnvoll, Wortfamilien in einem Stem-Thesaurus zu speichern, der zwar mit automatischer Unterstützung, aber auch mit halbautomatisch erstellten Ausnahmelisten und menschlicher Endkontrolle erstellt wird. Der fertige Thesaurus enthält schließlich nur diejenigen Wortfamilien, innerhalb derer eine hinreichende semantische Verwandtschaft besteht, um sie als zusammengehörig anzusehen. Er steht dann als weitgehend feststehende, aber erweiterbare Ressource zur Verfügung, um das Spektrum von Suchfunktionen um die jeweilige Wortfamilie zu erweitern.

Solche halb-automatisch erzeugten, händisch kuratierten Stem-Thesauri sind wertvolle Ressourcen für die explorative Suche. Sie ermöglichen im Zusammenspiel mit den weiteren Features des iFinder eine deutliche Erweiterung der Such- und Recherchemöglichkeiten des Benutzers.

Der Autor

Pascal Zambito
Werkstudent IntraFind Software AG
Pascal Zambito, B.Sc., Absolvent der Computerlinguistik an der Ludwig-Maximilians-Universität München (LMU), hat im Rahmen seiner Bachelorarbeit im Auftrag der IntraFind Software AG einen Stem-Thesaurus für die deutsche Sprache entwickelt.
Bild
Pixelfläche grün-blau