In der Trefferliste ganz oben: Relevanz in Suchanfragen

In der Trefferliste ganz oben: Relevanz in Suchanfragen

„Lieber User-Support,

für einen Vortrag, den ich nächste Woche im Teammeeting halten soll, muss ich nach thematisch passenden Dokumenten auf unseren Unternehmensservern recherchieren. Leider werden mir in der Trefferliste nicht die Ergebnisse aufgelistet, die ich brauche. Die Dokumente sind entweder völlig veraltet oder thematisch unpassend. Funktioniert die Suchmaschine nicht richtig? Warum werden mir keine Suchergebnisse angezeigt, die für mich relevant sind?“

Eine solche Anfrage würde wohl jeder Anwender, der schon einmal eine ähnliche Erfahrung gemacht hat, gerne an seine IT-Abteilung stellen. Wie kommt es, dass die Suchmaschine nicht die gewünschten Ergebnisse anzuzeigen scheint oder man sie erst nach mühsamem Scrollen durch die Trefferliste findet? Wovon hängt die Reihenfolge der Treffer, also deren Relevanz, ab? Wie lässt sich die Relevanz innerhalb der Trefferliste beeinflussen?

Wer eine eigene Webseite erstellt, wendet spezielle Suchmaschinenoptimierungsverfahren an, damit die Seite bei Google möglichst weit oben in der Trefferliste erscheint, wenn man nach einem bestimmten Begriff sucht. Die Reihenfolge innerhalb der Trefferliste hängt bei Google unter anderem von der Linkpopularität ab. Darüber hinaus wird die Reihenfolge von Best Bets wie beispielsweise Wikipedia-Artikel oder Bezahlangebote wie Google AdWord beeinflusst. Den vollständigen Algorithmus gibt Google jedoch nicht preis.

Anders bei Enterprise Search-Anwendungen: Hier basiert die Reihenfolge innerhalb der Trefferliste auf einer klar definierten Formel. Die Trefferliste kann auch je nach Szenario rechtegeprüft sein. Das bedeutet, dass ein Mitarbeiter aus der Buchhaltung bei der Suche andere Treffer angezeigt bekommt, als sein Kollege aus der Entwicklung.

Das Thema Relevanzberechnung gehört neben der Aufbereitung des Indexes und der Verarbeitung von Suchanfragen zu den zentralen Kernaufgaben einer Suchmaschine. Für den Nutzer ist die Antwort auf eine Suchanfrage dann relevant, wenn sie sein Informationsbedürfnis erfüllt. Da die Antwort einer Suchmaschine oft mehrere Objekte enthält, wie Dokumente, Adressen oder Bilder, spricht man von relevanten Treffern.

Will man das Thema Relevanz in Suchergebnissen verstehen, muss man sich darüber im Klaren sein, dass eine Suche ein Prozess ist, der mehrere Komponenten umfasst: Die suchende Person, die Suchanfrage, gegebenenfalls voreingestellte Filter, der Ort, von dem aus die Suche stattfindet und der Zeitpunkt der Suche. Die gleiche Person kann mit der gleichen Suchanfrage zu unterschiedlichen Zeitpunkten unterschiedliche Informationsbedürfnisse haben. Aus diesen Gründen hat Relevanz auch immer eine subjektive und kontextsensitive Komponente.  

Technische Voraussetzungen

Bei der Frage nach Relevanz sind auch die technischen Bedingungen zu klären: Um welche Art der Suchmaschine handelt es sich? Es macht einen Unterschied, ob der Nutzer eine indexbasierte Suchmaschine oder eine Echtzeitsuchmaschine verwendet.

Am häufigsten sind indexbasierte Suchmaschinen im Einsatz. Sie halten sämtliche Daten im Index vor. Der Nutzer kann jedoch nur diejenigen Dokumente finden, die sich im Index befinden. Oft fehlen an den Dokumenten die erforderlichen Metadaten. Wurden die Metadaten nicht gepflegt und müssen Daten nachträglich getaggt bzw. verschlagwortet werden, gelangen Dokumente mitunter mit fehlerhaften oder unvollständigen Angaben in den Index und es wird umso schwerer, die richtigen Dokumente aufzufinden.

Die sogenannte Echtzeitsuchmaschine startet den Indexierungsvorgang erst nach der Suchanfrage. So sind die Daten zwar aktuell, deren Qualität allerdings mitunter schlechter und es dauert lange, bis einer Trefferliste angezeigt wird.

Wie wird die Relevanz eines Dokumentes berechnet?

Den Wert, der die Reihenfolge der Treffer innerhalb der Trefferliste bestimmt, falls keine andere Sortieroption (z.B. Aktualität) angegeben wurde, nennt man Scoring. Jedes Trefferdokument muss einen Score größer Null haben, sonst wird es nicht in der Trefferliste angezeigt. Somit könnten theoretisch auch bestimmte Dokumente ganz gezielt aus der Trefferliste ausgeschlossen werden.

Inhaltsbasierte Relevanz

Bei der inhaltsbasierten Relevanz wird die Suchanfrage inhaltlich mit den im Index sich befindenden Dokumenten verglichen. Ein Beispiel ist das TF/IDF-Verfahren.

Gemeint ist damit die Termfrequenz (Term Frequenzy = TF) und die inverse Dokumentenhäufigkeit (Inverse Document Frequency = IDF).

Die Termfrequenz bezeichnet die Häufigkeit, mit der ein Begriff im Dokument vorkommt. Demnach werden Dokumente, in denen der Suchbegriff häufig vorkommt, als relevanter eingestuft als diejenigen, in denen der Begriff nicht so häufig vorkommt. Das Problem, das hier entstehen kann, ist, dass längere Dokumente höher bewertet werden können, weil darin mehr Begriffe vorkommen. Die Suchmaschine kann das jedoch ausgleichen, indem die Termfrequenz bei großen Dokumenten relativ zur Dokumentengröße angepasst wird. Es ist auch möglich, bei der Konfiguration der Suchmaschine die Begriffe nach ihrem Informationswert zu gewichten und zum Beispiel Adverbien niedriger zu bewerten oder Stoppwörter zu verwenden und beispielsweise Begriffe wie „und“ aus dem Index auszuschließen.

Über die Feldgewichtung ist es auch möglich, Dokumente höher zu gewichten, wenn der Suchbegriff in bestimmten Feldern vorkommt, denen ein hoher Wert zugeordnet worden ist, wie zum Beispiel im Titel des Dokuments.

Die inverse Dokumentenhäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der Dokumente. Hier werden Begriffe, die in weniger Dokumenten enthalten sind, höher gewertet. Wichtig ist, dass der TF und IDF zusammenwirken, sodass die Dokumente, die für den Nutzer wirklich relevant sind, im richtigen Maß angezeigt werden.

Ein anderes Verfahren ist BM25. Der BM25 basiert auf das TF/IDF-Verfahren, erlaubt jedoch im Gegensatz dazu noch mehr Feinabstimmungen und Konfigurationsmöglichkeiten.

Nutzungsbasierte Relevanz

Um den Suchkontext bei der Berechnung der Relevanz zu berücksichtigen, müssen zusätzlich zum Inhalt andere Informationen (Signale) gemessen werden. Beispiele sind: Identität des Suchenden samt Profilinformationen, Benutzerinteraktionen mit dem System bei gleichen oder ähnlichen Suchen, Suchort und -zeit, etc. Diese Signale können dann zusammen mit der inhaltlichen Relevanz kombiniert werden, um somit eine verbesserte Relevanz zu erzielen.

So gibt es neben der inhaltsbasierten Relevanz auch eine nutzungsbasierte Relevanz. Hier wird die Reihenfolge der Treffer in der Trefferliste von der Gruppenzugehörigkeit des Suchenden und deren Historien beeinflusst – nach dem Motto: Was meine Kollegen interessiert und wonach andere Mitarbeiter der selben Abteilung schon gesucht haben, könnte mich auch interessieren. Dokumente, nach denen also schon die Kollegen gesucht haben, werden demnach in der Trefferliste höher gewichtet.

Möglichkeiten die Relevanz anzupassen

Die Relevanz kann mithilfe von sogenannten Boost-Faktoren beeinflusst werden. Dabei erhalten Dokumente, welche eine bestimmte Information, wie zum Beispiel einen Produktnamen, beinhalten, einen höheren Relevanzwert. Diese Boosts werden in enger Zusammenarbeit mit dem Kunden und entsprechend seinen Anforderungen ausgearbeitet.

Die Relevanz kann auch durch die Vorverarbeitung von Queries verbessert werden, indem der sogenannte "Search Intent" (die Suchintention) aus der Query erfasst wird. Dabei wird die Query umgeschrieben um den Search Intent besser zu repräsentieren. Beispiel: Die Suchanfrage „Präsentationen von letzter Woche für den Kundentag“ kann übersetzt werden in eine Suche, die Präsentationen (also PowerPoint- oder PDF-Dokumente), welche in der vergangenen Woche zuletzt gespeichert wurden und den Begriff 'Kundentag' beinhalten, umfasst.
Zur Vorverarbeitung von Queries gehört auch die Erweiterung von Queries mittels Thesauri.

Boost-Faktoren

Das Boosting kann über die verschiedensten Verfahren erfolgen. So kann die Position des Suchbegriffs einen Einfluss auf das Ranking in der Trefferliste haben, also ob er am Anfang oder am Ende eines Dokuments steht. Weiterhin gibt es den formatbasierten Boost, der Dokumente höher gewichtet, in denen der Suchbegriff fett formatiert ist.

Auch die Dokumentenqualität kann eine Rolle spielen. Hierbei wird der Contentquelle ein Qualitätswert zugeordnet und dieser wird dann auf alle zugehörigen Dokumente übertragen.  Weitere Boost-Faktoren können die Größe der Dokumente sein sowie deren Popularität, was an Log-Dateien und Anzahl der Klicks gemessen werden kann und auch die eingehenden Links beziehungsweise Verweise auf ein Dokument. Demnach ist das Dokument am hilfreichsten, auf das am häufigsten von anderen Dokumenten aus verwiesen wird.

Auch die Aktualität des Dokuments kann als Boost-Faktor für das Ranking innerhalb der Trefferliste verwendet werden oder die Bewertung der Benutzer.

Für das Boosting kann auch eine interne Redaktion eingesetzt werden. Redakteure entscheiden darüber, welche Dokumente wichtig sind und welche weniger. Die Reihenfolge der Suchergebnisse in der Trefferliste liegt damit im Ermessen des Redakteurs, der die Dokumente unterschiedlich hoch gewichtet.

Dominoeffekt vermeiden

Der Boost Faktor wird für jedes Dokument im Index hinterlegt und mit dem eigentlichen Score multipliziert. Bei jeder neuen Indexierung kann der Boost-Faktor wieder geändert und kundenspezifische Wünsche können mit übernommen werden.

Das Thema Relevanz von Suchergebnissen ist sehr vielschichtig und hängt von vielen verschiedenen Faktoren und Bedingungen ab. Deshalb ist beim Tuning der Relevanz immer höchste Vorsicht geboten. Schon kleine, auf den ersten Blick sinnvoll erscheinende Anpassungen können Auswirkungen auf andere Use Cases haben, die nicht berücksichtigt wurden.

Ein Boost auf das Titel-Feld kann beispielsweise dazu führen, dass sich der Titel unverhältnismäßig hoch auf das Ranking auswirkt, nicht zuletzt dann, wenn er reißerisch formuliert ist und mit den für den Text relevanten Keywords nicht viel zu tun hat. Beispiel: Ein Artikel, in dem es um den US-Präsidenten Donald Trump und seine Partei geht, hat den Titel „Eine zerstörerische Kraft“. Weder das Keyword „Trump“ noch „GOP“ tauchen im Titel auf. Das übermäßiges Boosting des Titelfeldes könnte also in dem Fall dazu führen, dass der Artikel nicht gefunden wird.

Weiterführende Links:

Zurück

Der Autor

Breno Faria

Breno Faria, Head of Development, ist seit 2012 für die IntraFind Software AG tätig. Seit den späten 2000er Jahren beschäftigt er sich intensiv mit den Themen Content Analytics und Information Retrieval. 2015 übernahm er die Rolle des Entwicklungsleiters bei IntraFind.

 

Im Rahmen von Veranstaltungen, z.B. Berlin Buzzwords 2014 oder "IntraFind Enterprise Search Day 2015", referiert er regelmäßig über neue Technologien oder präsentiert innovative Lösungen aus IntraFind Kundenprojekten.

Zurück