• IntraFind
  • Unternehmen
  • Revolutioniert die “Semantische Suche” das Netz? Trends und Herausforderungen in der Forschung.

Revolutioniert die “Semantische Suche” das Netz? Trends und Herausforderungen in der Forschung.

 

Der Begriff „semantische Suche“ wird sehr unterschiedlich und teilweise inflationär genutzt. Eigentlich fällt schon jedes Verfahren darunter, das die Benutzeranfrage (Query) in irgendeiner Weise interpretiert und versucht, eine optimale Antwort (keine reine Volltextsuche) darauf zu geben. Verfahren wie die „semantisch-assoziative Suche“ der IntraFind Software AG liefern verwandte Begriffe auf Basis der indexierten Dokumente, die zur Verfeinerung oder Erweiterung einer Suche dienen können.

 

Die Suche nach dem Begriff „Clinton“ liefert z.B. die möglichen Spezialisierungen „Hillary Clinton“, „Bill Clinton“ oder „Chelsea Clinton“, ohne dass diese Personen in einer Ontologie hinterlegt wären, rein auf Basis der vorhandenen Textdokumente. Jedoch wird auch der Begriff „Weißes Haus“ als mögliche Erweiterung der Suche geliefert. Das Verfahren ist vergleichbar zu Clustering-Techniken. Eigentlich wird eine Tag Cloud zur aktuellen Suche geliefert.

 

Vorteil: Eine manuelle Pflege ontologischer Ressourcen ist nicht notwendig, da das Verfahren rein auf statistischer Basis, jedoch unter Berücksichtigung linguistischen Wissens (Wortkategorien, Noun Phrase-Erkennung) arbeitet. Einen ähnlichen Effekt kann man durch Einbeziehung eines manuellen Thesaurus erzielen. Auf dieser Basis kann sogar sprachübergreifend (crosslingual) gesucht werden.

 

In letzter Zeit prägen Google und Siri den Begriff “semantische Suche”.

 

Benutzeranfragen werden interpretiert und anstelle einer Trefferliste werden wirkliche Antworten generiert, zumindest bei Faktenfragen wie der Frage nach einem chinesischen Restaurant in der Nähe oder nach dem Geburtsdatum der Bundeskanzlerin. Bei nicht eindeutig interpretierbaren Faktenfragen wird ein Artikel der Wikipedia zum Hauptsuchbegriff zurückgeliefert. Faktenfragen lassen sich schon mit relativ einfachen Verfahren (Wer, Wo, Wann, Wie groß, Wie viel, …) erkennen und interpretieren. Sie werden in den meisten Fällen durch Einträge aus Datenbanken (oder Triple Stores wie der dbpedia) beantwortet. Ohne diese strukturierte Information aus Datenbanken würde die „semantische Suche“ á la Google und Siri nicht funktionieren.

 

Besonders beeindruckend sind natürlich solche Ergebnisse, wenn gleichzeitig der aktuelle Ort des Fragestellers mit einbezogen wird oder die „semantische Suche“ mit einer Spracherkennung verbunden ist. D.h. die hinter der semantischen Suche von Google und Siri steckende Technologie ist kein Hexenwerk. Echtes Textverständnis auf Basis von intelligenten Verfahren kommt nicht zum Einsatz.

 

Da jedoch in der Praxis oft die strukturierten Daten fehlen, versuchen wir bei IntraFind bzgl. „semantischer Suche“ etwas weiterzugehen. Wir erkennen Entitäten wir Personen, Organisationen und Orte in Texten. Schon vor 4 Jahren haben wir eine semantische Suchmaschine gebaut, die Faktenfragen rein auf der Basis von Text beantworten kann. Wie oben geschildert, werden Faktenfragen auf Basis einfacher Muster erkannt.

 

So wird die Frage nach den Gründern von Microsoft („Wer hat Microsoft gegründet?“) übersetzt in eine Query nach Personen in der Nähe des Begriffs “Microsoft” und Synonymen des Wortes „gründen“. Damit lässt sich die Frage auch ohne eine Datenbank mit Faktenwissen und ohne aufwändig manuell gepflegte Ontologien beantworten.

 

Aus meiner Sicht sind derartige Ansätze notwendig, um beim Thema „semantische Suche“ weiterzukommen, denn für die meisten interessanten Fragen gibt es keine manuell gepflegte Datenbanken, sondern nur textuelle Information. Für einen wirklichen Erfolg der semantischen Suche brauchen wir Verfahren, die Faktenwissen aus Texten extrahieren. Dies ist die Herausforderung für die nächsten Jahre.

 

Zurück

Der Autor

Christoph Goller

Dr. Christoph Goller verfügt über 15 Jahre Erfahrung im Enterprise Search Markt. Er promovierte in Computerwissenschaften an der Technischen Universität in München und arbeitete im Anschluss in einigen wissenschaftlichen Projekten zu Themenbereich Künstliche Intelligenz, Machine Learning sowie Neuronale Netze.

 

Seit 2002 leitet er den Bereich Forschung bei IntraFind und verantwortet IntraFind's Kern-Suche- und Content Analyse Technologien. Zwischen 2003 und 2007 arbeitete Christoph aktiv als Committer in Apache's Open Source Projekt Lucene.

 

 

Zurück