Automatische Textklassifikation zur Themenerkennung und Dokumentenanalyse

Kontext: Verschlagwortung von Dokumenten, Erstellen von Themenseiten

Erst Kontext verleiht Wörtern ihre Bedeutung. Menschen können aufgrund von Vorwissen und Interpretationsfähigkeit sehr gut semantische Kontexte aus Inhalten bestimmen und die tatsächliche Information korrekt interpretieren. Für das Finden relevanter Information ist die kontextsensitive Interpretation von Inhalten oft entscheidend. Klassische Enterprise Search- und Information Retrieval-Lösungen stoßen hier an ihre Grenzen. Die Textklassifikation ist eine Schlüsseltechnologie, um jenseits der Wortebene Themen und Kontexte von Dokumenten zu bestimmen und nutzbar zu machen. Zur Bestimmung der Themen werden nicht einzelne Wörter, sondern automatisch generierte Mengen an Wörtern und Mehrwortbegriffen genutzt.

So können beispielsweise für Verlage und Bibliotheken Schlagwörter für Dokumente bestimmt und automatisch Themenseiten zusammengestellt werden. Ein Dokument kann z.B. dem Thema "Außenpolitik" zugeordnet werden, ohne dass das Wort Außenpolitik explizit im Text des Dokuments vorkommt. Basis für die Zuordnung können Begriffe wie "Außenministerium", "Botschaften" oder auch Namen von Außenpolitikern sein.

Zeit ist Geld: Post- und E-Mail-Weiterleitung, Spam-Filterung

Die Menge eingehender Post und E-Mails, die von Mitarbeitern heutzutage bewältigt werden muss, ist sehr groß und wächst ständig. Der TopicFinder kann diese zeit- und kostenintensive Tätigkeit deutlich reduzieren, indem er beispielsweise ein Spam-Dokument automatisch markiert oder filtert und Kundenanfragen automatisch an die thematisch am besten passenden Sachbearbeiter oder Abteilungen weiterleitet.

Um diese Aufgabe erfüllen zu können, muss der TopicFinder speziell auf die Informationsbedürfnisse des Kunden trainiert werden. Der Einsatz des TopicFinder gliedert sich in eine Trainings- und eine Produktivphase. Hierfür steht eine administrative Web-Anwendung für Training und Evaluierung zur Verfügung. Multi-Threading garantiert ein effizientes Training, skalierbar auf große Datenmengen sowie komplexe Taxonomien.

Schlau – der TopicFinder filtert Nachrichten oder generiert automatisch Newsletter

Der TopicFinder ordnet Dokumente automatisch Themen zu, basierend auf einstufigen oder mehrstufigen hierarchischen Taxonomien. So können beispielsweise Meldungen von Nachrichtentickern je nach Inhalt an die Sport-, Politik- oder Wirtschaftsredaktion weitergeleitet, oder eine Verschlagwortung von Nachrichtenartikeln auf Basis einer redaktionellen Themenhierarchie durchgeführt werden.

Für einen wöchentlichen Newsletter können auf Basis eines bereits definierten Newsletter-Profils Fachartikel gefiltert und nach Relevanz geordnet werden. Der TopicFinder analysiert alle Artikel, sortiert sie nach Signifikanz und gruppiert ähnliche Artikel oder gar Dubletten zusammen, um die Weiterverarbeitung zu vereinfachen und die Informationsflut so gering wie möglich zu halten.