• IntraFind
  • Unternehmen
  • 10 Jahre automatische Textklassifikation mit TopicFinder. Ein Erfahrungsbericht aus der Praxis.

10 Jahre automatische Textklassifikation mit TopicFinder. Ein Erfahrungsbericht aus der Praxis.

 

Kürzlich stellte ich fest, dass 10 Jahre vergangen sind seit dem ersten Release des TopicFinders, unseres Produkts für die automatische Textklassifikation. Seitdem führten wir mit dem TopicFinder zahlreiche Kundenprojekte durch und die Weiterentwicklung des Produkts wurde maßgeblich durch die Praxiserfahrung getrieben. Ich denke, wir können uns durchaus zu Recht als Pioniere der Anwendung automatischer Textklassifikation bezeichnen. Das Jubiläum nehme ich zum Anlass für einen kleinen Blog-Beitrag.

 

Zunächst zur Begriffsklärung: Unter automatischer Textklassifikation versteht man die automatische Zuordnung von Dokumenten zu vordefinierten Themen auf Basis des Dokumenteninhalts. Ziel der Automatisierung ist fast nie, menschliche Experten zu ersetzen. Eher geht es darum, die großen Datenmengen, die durch menschliche Experten nicht mehr handhabbar sind, durch automatische Filterung in den Griff zu bekommen.

 

Das Anwendungsspektrum reicht von fachlich anspruchsvoller Klassifikation von juristischen Dokumenten (z.B. Gerichtsurteilen) oder Patenten (Internationale Patentklassifikation nach IPC oder ECLA) über die Filterung von Nachrichtentexten bis hin zur Produktklassifikation (z.B. nach Produktkatalogen ECLASS oder UNSPSC) oder zur Formularerkennung.

 

Grundlage für die Zuordnung von Dokumenten zu Themen bilden Klassifikationsregeln, die meist ein sehr ähnliches Format wie Queries in der Volltextsuche haben. Jedoch sind die Klassifikationsregeln für jedes Thema fest hinterlegt und werden eher selten geändert. Außerdem sind sie in der Regel sehr viel komplexer als normale Queries, um das jeweilige Thema möglichst umfassend abzudecken und trotzdem scharf genug von anderen Themen abzugrenzen.

 

Klassifikationsregeln manuell zu erstellen und zu pflegen ist sehr aufwändig. Deshalb setzten wir von Anfang an auf statistische Verfahren, die Klassifikationsregeln automatisch auf Basis von Beispieldokumenten (Trainingsdokumenten) für die jeweiligen Themen generieren. Statistische Verfahren sind objektiver als menschliche Experten, wodurch auch die Klassifikationsqualität steigt. Außerdem können die mit statistischen Verfahren erzeugten Regeln sehr viel komplexer werden, als von Menschen erstellte Regeln. Sie umfassen oft mehrere hundert Einzel- und Mehrwortbegriffe.

 

 

Was zeichnet nun den TopicFinder gegenüber anderen Produkten für die automatische Textklassifikation aus? Was haben wir aus der Praxis gelernt?

 

  • Der TopicFinder arbeitet nicht ausschließlich auf statistischer Basis. Als Vorverarbeitungsschritt setzen wir die aus unseren Enterprise Search-Produkten bekannten morphologischen Analyzer zur Normalisierung von Wörtern ein und wir nutzen Wortkategorien zur Erzeugung von Mehrwortbegriffen (Nominalphrasen). Durch diese Vorverarbeitung versorgen wir die nachfolgenden statistischen Verfahren mit zusätzlichem Wissen. Die Klassifikationsqualität steigt bzw. es werden weniger Beispieldokumente zum Lernen benötigt.
  • Im TopicFinder verwenden wir Support Vektor Maschinen, die besten verfügbaren statistischen Verfahren. Durch Kreuzvalidierungsläufe wird vollautomatisch die Modellkomplexität optimiert. Gemäß Occams Rasiermesser generieren wir möglichst einfache Modell- / Klassifikationsregeln.
  • Die Erfahrung zeigt, dass man der manuellen Klassifikation durch Experten nicht blind vertrauen darf. Die Beispieldaten, die man vom Kunden zum Training erhält, enthalten in den meisten Fällen auch falsche Themenzuordnungen. Sehr oft werden passende Themenzuordnungen für Beispieldokumente übersehen.
    Selbst wenn viel Wert auf eine hochwertige, konsistente Klassifikation gelegt wurde und die Beispieldokumente aus seit Jahren gepflegten Taxonomien stammen, so ist doch mindestens mit einer Fehlerrate von 5% zu rechnen. Der TopicFinder kann automatisch inkonsistente Themenzuordnungen in Beispieldaten entdecken, z.B. wenn sehr ähnliche Dokumente unterschiedliche Themenzuordnungen aufweisen.
  • Auch den automatisch erzeugten Klassifikationsregeln darf man nicht blind vertrauen. Der TopicFinder bietet Unterstützung beim Testen der automatisch generierten Regeln, z.B. durch automatische Kreuzvalidierung. Ein Alleinstellungsmerkmal ist, dass die automatisch generierten Klassifikationsregeln lesbar sind und somit ihre Plausibilität durch Experten überprüft werden kann. Klassifikation mit dem TopicFinder ist also keine Blackbox. Mittels farbigem Highlighting machen wir auch für einzelne Dokumente sichtbar, warum sie einem Thema zugeordnet werden.

TopicFinder next generation - wohin geht die Reise?

 

Dieses Jahr werden wir die Administrations- und Trainingsoberfläche des TopicFinder komplett überarbeiten. Der Import von Trainingsdaten wird flexibler durch Skripte steuerbar werden. Den Aufwand für die Erzeugung von manuell klassifizierten Trainingsdaten wollen wir durch die Einführung einer Active Learning-Komponente deutlich reduzieren und wir wollen mehr Unterstützung für Continuous Learning (automatische Verbesserung der Klassifikation durch Nutzung von User-Feedback) bieten.

 

Zurück

Der Autor

Christoph Goller

Dr. Christoph Goller verfügt über 15 Jahre Erfahrung im Enterprise Search Markt. Er promovierte in Computerwissenschaften an der Technischen Universität in München und arbeitete im Anschluss in einigen wissenschaftlichen Projekten zu Themenbereich Künstliche Intelligenz, Machine Learning sowie Neuronale Netze.

 

Seit 2002 leitet er den Bereich Forschung bei IntraFind und verantwortet IntraFind's Kern-Suche- und Content Analyse Technologien. Zwischen 2003 und 2007 arbeitete Christoph aktiv als Committer in Apache's Open Source Projekt Lucene.

 

 

Zurück