Tagging – Mehrwerte durch Metadaten

 

Metadaten sind per Definition Daten, welche andere Daten beschreiben. Beispiele hierfür sind Informationen wie Autor, Erstellungsdatum, Ort der Erstellung eines Dokuments oder auch Textbausteine, die besonders relevant sind. Bei IntraFind unterscheiden wir strukturelle Metadaten von semantischen Metadaten - nicht nur weil sie unterschiedlich entstehen, sondern auch weil sie unterschiedlich genutzt werden können.

 

 

Strukturelle Metadaten entspringen direkt der Struktur eines Dokuments (oder liegen bereits strukturiert vor). Beispiele für strukturelle Metadaten sind Dateityp oder Erstellungsdatum eines Dokuments.

 

Semantische Metadaten werden über mehr oder weniger aufwändige Text Analytics-Verfahren aus dem Inhalt eines Dokumentes gewonnen. Beispiele hierfür sind die in einem Text erwähnten Namen von Personen oder Orten oder die in einem Bild erkannten Gesichter. Semantische Metadaten ermöglichen einen inhaltlichen Überblick zu einzelnen Dokumenten ohne umfangreiche Detailbetrachtungen. Darüber hinaus können solche Metadaten im Kontext einer Suche dokumentenübergreifend kombiniert werden und somit einen wichtigen Einblick in die Unternehmensdaten gewähren.

 

Probleme bei der Erzeugung semantischer Metadaten

Semantische Metadaten entstehen dort, wo redaktionelle Arbeit geleistet wird – beispielsweise in der Redaktion einer Zeitung. Üblicherweise sind die Redakteure als Inhaltsproduzenten auch dafür verantwortlich, die Inhalte mit semantischen Metadaten zu versehen; beispielsweise indem sie eine Ressorteinordnung („Politik“, „Sport“, "Wirtschaft") vornehmen oder besonders relevante Schlagwörter („Eurokrise“, "US-Wahlkampf") ihres Textes dem Inhalt als sogenannte Tags hinzufügen. Die durch die manuelle und individuelle Verschlagwortung erzeugte Heterogenität erschwert eine dokumentenübergreifende Verwertung der Metadaten (autorenübergreifende Verlinkungen von Texten sind nicht mehr möglich).

 

Dieses Problem ist in der Bibliothekswissenschaft unter dem englischen Fachbegriff inter-indexer consistency bekannt und der unvermeidlichen Subjektivität der Interpretation des Einzelnen geschuldet. Dies war einer der Gründe, warum unser Kunde ZEIT Online die Unterstützung von IntraFind gesucht hatte und bei der Verschlagwortung von Nachrichten seit Jahren erfolgreich auf unser Produkt Tagging Service setzt. Durch die automatische Verschlagwortung kann eine homogene Schlagwortlandschaft gewährleistet werden. [Pflugfelder und Drongowski 2012]

 

Eine Meta-Frage stellt sich

Ein Anwendungsszenario von Metadaten wurde schon erläutert – Metadaten, besonders semantische, ermöglichen eine automatische Verlinkung von Dokumenten in einem Datenbestand. Die dadurch erzeugten Informationsnetze eignen sich hervorragend als Navigationshilfe und bringen im Fall eines über das Internet frei zugänglichen Informationsbestandes, intelligent konsolidiert, einen enormen Vorteil für dessen Suchmaschinenoptimierung (SEO).

 

Bei der Verwendung von Metadaten in der Suche sollte zunächst folgende Frage beantwortet werden: Welche Arten/Kategorien von Fragestellungen haben Benutzer einer Suchmaschine und wie können Metadaten sie bei der Abdeckung ihres Informationsbedarfes am besten unterstützen? Dazu ein nicht ganz ernst gemeintes Zitat des ehemaligen Verteidigungsministers der USA, Donald Rumsfeld [Rumsfeld 2012]:

 

"There are known knowns; there are things we know we know. We also know there are known unknowns; that is to say we know there are some things we do not know.
But there are also unknown unknowns – there are things we do not know we don't know."

 

Rhetorisch ist noch viel Luft nach oben, aber rein formal ist das Zitat schlüssig (obwohl unvollständig: eine Kategorie, die der unknown knowns, wurde nicht behandelt).

 

Um das Potenzial von Metadaten zu illustrieren, konzentrieren wir uns auf zwei Fragenkategorien - die gezielte Suche (known knowns) und die explorative Suche (unknown unknowns).

 

Die gezielte Suche (known knowns)

Einer gezielten Suche liegen Fragestellungen wie diese zugrunde: „Wo ist denn die Präsentation, die Herr Müller letzte Woche geschickt hat, und die auch an Herrn Meyer ging?“.

 

Die Wissenslandkarte in unserem Enterprise Search Produkt iFinder stellt eine Benutzeroberfläche für gezielte Suchen dar. Dabei wird nicht wie üblich über die manuelle iterative Verfeinerung der Suchanfrage (query) die Treffermenge weiter eingeschränkt, bis man zum erwünschten Treffer gelangt. Stattdessen wird über eine grobe Suchanfrage (im Extremfall die "*-Suche", welche alle Dokumente eines Datenbestandes als Treffer liefert) zunächst eine große Treffermenge bereitgestellt, die garantiert den gewünschten Treffer beinhaltet. Anschließend wird durch das Anklicken von auf Metadaten basierenden Filterelementen (Facetten) die Treffermenge so lange eingeschränkt, bis der gewünschte Treffer gefunden wird.

 

Im obigen Beispiel würde der Benutzer folgendermaßen vorgehen:

 

  • der Suchfilter "Dateityp" wird auf den Wert "Präsentation" begrenzt,
  • der Suchfilter "Absender" wird auf den Wert "Herr Müller" festgelegt,
  • der Suchfilter "Änderungsdatum" wird auf den Zeitrahmen "letzte Woche" eingeschränkt und
  • der Suchfilter "CC-Adressat" wird auf den Wert "Herr Meyer" limitiert.

Bei jedem Schritt verändert sich die gezeigte Treffermenge und sobald das gesuchte Dokument erscheint, kann der Recherchevorgang erfolgreich beendet werden.

 

Die gezielte Suche bringt man als Benutzer nicht zwangsläufig in Verbindung mit einer Suchmaschine – schließlich ist diese Art von Suche bei Websuchmaschinen nur bedingt durchführbar. Google und Co. sammeln für einzelne Webseiten nur sehr wenige vom Benutzer sichtbare und verwertbare Metadaten. Außerdem sind solche Suchmaschinen nicht vollständig – sie indizieren nicht das gesamte Internet. Die geschilderten Suchaufträge stehen in der Regel dann an, wenn man in den Daten des eigenen Rechners oder im Dateisystem der Firma ein bestimmtes Dokument sucht. Dabei ist man auf die eigene Organisationsdisziplin und die der Kollegen angewiesen. Solche Suchen beanspruchen viel Zeit und enden oft ohne Erfolg. Im iFinder lässt sich dieses Anwendungsbeispiel als Teil der Suche abdecken.

 

Die explorative Suche (unknown unknowns)

Die explorative Suche ist eine sehr aufwändige Art von Suche. Der Informationsbedarf ist dabei nicht einfach zu verbalisieren oder lässt sich durch das Finden eines einzelnen Dokumentes nicht abdecken. Beispiele für Fragestellungen, welche zu einer explorativen Suche leiten würden, sind: „Worum ging es denn im Projekt XYZ?“, „Was hat Herr Müller in dieser Firma gemacht?“, „Welche sozialen Netzwerke zwischen Personen und Firmen lassen sich aus einem beschlagnahmten Datenbestand ableiten?“.

 

Die Antworten zu derartigen Fragen stehen selten konsolidiert in einem Dokument zur Verfügung, sondern müssen aus unterschiedlichen Dokumenten und Quellen mühsam zusammengetragen werden. Durch die Kombination von semantischen Metadaten und Suche kann sich ein Benutzer sehr schnell einen Überblick zu solchen Fragestellungen verschaffen. Eine Möglichkeit ist die Bereitstellung von Tag Clouds, die dem Benutzer auf einen Blick besonders relevante Begriffe zur Treffermenge seiner Suchanfrage liefern.

 

Explorative Suchen fallen beispielsweise bei der Einarbeitung in neue Themen, der Einarbeitung neuer Kollegen oder im Rahmen von Ermittlungen bzw. im Anwendungsbeispiel E-Discovery an. Semantische Metadaten sind eine Voraussetzung für hochwertige Suchergebnisse im Rahmen einer explorativen Suche und durch den Wegfall sonst sehr aufwändiger Recherchearbeiten ein Garant für einen schnellen ROI!

 

Zusammenfassung

Durch den Einsatz des IntraFind Tagging Service lassen sich zusätzlich zu den strukturellen Metadaten automatisch hochwertige semantische Metadaten ohne subjektiven Bias erzeugen, den einzelnen Dokumenten zuordnen und als Filterelemente in der Suche verwenden. Über die Wissenslandkarten im iFinder kann der Benutzer sowohl strukturelle als auch semantische Metadaten verwenden, um gezielte Suchbedürfnisse zu befriedigen.

 

Durch die Gewinnung semantischer Metadaten bereitet der Tagging Service den Weg zur explorativen Suche. Metadaten gewähren einen detaillierteren Einblick in einen Informationsbestand, optimieren Rechercheprozesse und schaffen kürzere und unkompliziertere Wege zur gewünschten Information.

 

 

Bibliographie:

  • [Pflugfelder und Drongowski 2012] – Bernhard Pflugfelder und Ron Drongowski, Semantische Suche @ ZEIT Online, KnowTech -- 14. Kongress zum Wissensmanagement in Unternehmen und Organisationen "Neue Horizonte für das Unternehmenswissen -- Social Media, Collaboration, Mobility". M. Bentele, N. Gronau, P. Schütt, M. Weber (Hrsg.). Stuttgart, 2012
  • [Rumsfeld 2012] - Donald Henry Rumsfeld in einem News Briefing des US-Verteidigungsministeriums am 12. Februar 2002 -- https://de.wikiquote.org/wiki/Donald_Rumsfeld (Abruf am 22.07.2015)

Zurück

Der Autor

Breno Faria

Breno Faria, Head of Development, ist seit 2012 für die IntraFind Software AG tätig. Seit den späten 2000er Jahren beschäftigt er sich intensiv mit den Themen Content Analytics und Information Retrieval. 2015 übernahm er die Rolle des Entwicklungsleiters bei IntraFind.

 

Im Rahmen von Veranstaltungen, z.B. Berlin Buzzwords 2014 oder "IntraFind Enterprise Search Day 2015", referiert er regelmäßig über neue Technologien oder präsentiert innovative Lösungen aus IntraFind Kundenprojekten.

Zurück