Suche in Internet, Extranet und Intranet. Drei Seiten einer Medaille.

 

Viele Unternehmen stehen bei der Einführung einer Suche vor der Herausforderung, verschiedene Bereiche in einer Suche zu vereinheitlichen: sowohl in organisatorischer (Standorte, Abteilungen, usw.) als auch in technischer Hinsicht (Datenquellen, Zugriffsrechte, etc.).

 

Daraus ergeben sich spezielle Anforderungen, die ich im Folgenden exemplarisch anhand der Suche in Internet, Extranet und Intranet etwas näher beleuchten werde.

DATENQUELLEN

Ohne Daten keine Suche: Die zu durchsuchenden Daten bilden die Grundlage für jede Suchlösung. Die erste Herausforderung besteht darin, die Daten so in das Suchsystem zu transferieren, dass diese später vernünftig durchsuchbar sind. Durchsuchbar meint in diesem Fall zum einen, dass die Inhalte vom Anwender gefunden werden können, aber auch dass die Inhalte zu einem erwarteten Zeitpunkt verfügbar sind.

 

Es gibt verschiedene Methoden, Inhalte aus Datenquellen wie Webseiten, CMS, DMS, File-System, SharePoint, Jive, Wikis, Datenbanken usw. in ein Suchsystem zu übernehmen.

 

Bei der Suche im Internet steht man häufig „nur“ vor der Aufgabe, ein System (CMS) durchsuchbar zu machen, und die darin gespeicherten Informationen sind in der Regel auch für alle Benutzer sichtbar.

 

Für eine Extranetsuche muss üblicherweise ebenfalls nur ein System berücksichtigt werden (CMS), aber hier gibt es bereits Benutzergruppen, die nur spezifische Inhalte sehen und natürlich auch nur diese durchsuchen dürfen.

 

Für die Suche im Intranet liegt meist die geballte Ladung an Varianten vor. Dort sind verschiedene Systeme, verschiedenste Dateiformate, granulare Berechtigungskonzepte und vieles mehr an der Tagesordnung.

 

CRAWLER

 

Die schnellste Art, aus Inhalten einen Suchindex zu erstellen, ist die Verwendung eines Crawlers. Dieser ist dem ersten Anschein nach prädestiniert für die Indizierung von Webseiten. Der Crawler ist auch die einzige Lösung, wenn man keinen Einfluss auf das zu durchsuchende System hat (z.B. die Webseite eines Mitbewerbers).

 

Allerdings ist ein Crawler die denkbar schlechteste Lösung, um Daten in einem Suchindex aktuell zu halten.

 

Der Crawler muss eine Webseite immer komplett durchforsten, um neue und geänderte Inhalte zu entdecken. Ein Crawler kann aufgrund der Beschaffenheit des Internets gelöschte Inhalte nicht direkt erkennen. Beim Prüfen einer bereits gecrawlten Seite erhält er vom jeweiligen Webserver nur die Meldung „Seite nicht gefunden“ zurück. Nun kann es aber sein, dass die Seite gar nicht gelöscht wurde, sondern aus technischen Gründen lediglich temporär nicht erreichbar ist. Daher muss ein Crawler eine nicht erreichbare (und eventuell gelöschte) Seite immer mehrmals prüfen, bevor diese auch als gelöscht erkannt und endgültig aus dem Suchergebnis entfernt wird.

 

Eine Suche für eine Webseite im Internet oder ein einfaches Extranet kann aber durchaus mit Hilfe eines Crawlers befüllt werden.

 

KONNEKTOREN

 

Konnektoren sind die erste Wahl, wenn Inhalte aus Quellsystemen extrahiert und zu einem Index aufgebaut werden sollen. Ein Konnektor läuft typischerweise innerhalb des Quellsystems und zapft dessen Workflows an.

 

Konnektoren kennen „ihr“ System, für das sie entwickelt wurden, und können daher die jeweiligen Features der Quellsysteme entsprechend einsetzen. Ein guter Konnektor erkennt Änderungen an seinem Quellsystem (sofern das Quellsystem dies zulässt) und kann direkt auf diese Änderung reagieren. Dies bedeutet, dass die Information über eine Neuanlage, eine Änderung oder eine Löschung direkt an das Suchsystem weitergeleitet werden kann. Somit ist der Suchindex beim Einsatz von Konnektoren im Gegensatz zum Crawling stets aktuell.

SICHERHEIT

Jeder Benutzer sollte im optimalen Fall nur die Dokumente in einem Suchergebnis sehen, die er auch sehen darf. Im einfachsten Fall dürfen alle Benutzer alle Dokumente sehen, suchen und finden.

 

Für einen Internetauftritt stellt sich die Frage nach der Sicherheit in der Regel nicht, da die Benutzer meist anonym sind und alle Inhalte auf der Webseite lesen dürfen.

 

Bei einem Extranet gibt es mindestens die Unterscheidung in öffentliche und nicht öffentliche Inhalte, es kann dort aber auch persönliche Inhalte geben.

 

Im Intranet sind Benutzerberechtigungen typischerweise am häufigsten und in den unterschiedlichsten Ausprägungen verbreitet.

 

Die Herausforderung für ein Suchsystem besteht darin, einem Benutzer genau die Dokumente anzuzeigen, die er auch sehen darf. Und das nicht nur bei der Verarbeitung der Suchanfrage, sondern auch bei der Ausführung von Funktionalitäten wie Autocomplete oder der Anwendung von Suchfiltern (Facetten)!

 

Early Binding

 

Um bei optimaler Performance die bestmögliche Treffermenge zu berechnen, ist ein so genanntes „Early Binding“ unerlässlich.

 

„Early Binding“ bedeutet, dass bereits bei der Indexierung die Berechtigungen der Dokumente mit im Suchsystem abgespeichert werden. Die Berechtigungen können dann zur Suchzeit sofort mit ausgewertet werden und garantieren somit eine sichere und schnelle Suche.

 

Late Binding

 

Unter „Late Binding“ versteht man das Prüfen und den Abgleich jedes Eintrags in der Suchergebnisliste mit dem Quellsystem.

 

Dabei wird versucht, anhand der Berechtigungsinformationen des aktuell suchenden Benutzers zu jedem Eintrag in der (technischen) Ergebnisliste im Hintergrund das entsprechende Dokument zu öffnen. Liefert das Quellsystem hierfür eine Fehlermeldung zurück (d.h. es ist keine Berechtigung vorhanden), wird das entsprechende Dokument in der Ergebnisliste des Benutzers nicht angezeigt.

 

Dieses Vorgehen ist zum einen langsam, zum anderen setzt es die Quellsysteme unter Last, da diese bei jeder Suchanfrage des Anwenders – auch bei bereits ausgeführten – immer die Inhaltsprüfungen beantworten müssen.

 

In der Praxis bedeutet dies: Im Optimalfall hat ein Benutzer das Recht, alle Inhalte zu sehen. Folglich wird bei einer Ergebnisliste von zehn Dokumenten genau zehnmal bei den Quellsystemen nachgefragt, ob ausreichende Berechtigungen vorliegen, und dem Benutzer werden diese Ergebnisse präsentiert. Hat ein Benutzer aber nur Rechte auf 10% der Inhalte, dann müssen schon 100 Anfragen an die Quellsysteme gestellt werden, um eine gültige Ergebnisliste für den Benutzer zu erstellen.

BENUTZERGRUPPEN

Die Benutzergruppen hängen natürlich sehr eng mit dem Thema Security zusammen. Bestimmte Benutzer oder Gruppen sollen nur Zugriff auf Inhalte erhalten, für die sie auch berechtigt sind.

 

Für ein einfaches Internetportal (z.B. eine kostenfreie News-Seite) gibt es nur eine Benutzergruppe: Alle. Jeder Benutzer darf alle Inhalte auf dem Portal sehen und somit auch alles suchen und finden. Eine Unterscheidung findet nicht statt (zumindest nicht über eine User-Authentifizierung).

 

Im Extranet sieht dies schon anders aus. Dort kann der Zugang zu Inhalten über die Zugehörigkeit zu Benutzergruppen (z.B. in einem Partnerportal: Hat der Benutzer den Status „Partner“ ja/nein?) oder über die Rechte der einzelnen Benutzer reglementiert sein. Hier kann es dann also durchaus der Fall sein, dass nicht jeder Benutzer alle Inhalte sehen darf. Allerdings gibt es in den meisten Fällen nur ein Authentifizierungssystem, das beachtet werden muss. Daher ist eine Implementierung einmalig zu machen, um eine rechteabhängige Suche und Ergebnisanzeige zu gewährleisten.

 

Im Intranet sind die Hürden schon wesentlich höher. Hier gibt es häufig mehrere Authentifizierungssysteme, oft auch durch Unternehmen selbst „gestrickt“. Dies stellt für eine optimal eingestellte Suche mit Berücksichtigung aller Quellsysteme und deren Authentifizierungselemente eine große Herausforderung dar. Ein entsprechendes Mapping auf die einzelnen Benutzer und Gruppen muss erstellt und bei der Indexierung und Suche berücksichtigt werden. In der Regel gilt: Je größer das Unternehmen, desto größer auch die Anzahl an Benutzern, Gruppen und Quellsystemen und damit auch der Koordinationsaufwand für eine rechtegeprüfte Suche.

FAZIT

Alles in allem werden die Anforderungen an ein Suchsystem und die angegliederten Systeme (Crawler, Konnektoren, Security-Mapper usw.) vom Internet über das Extranet bis zum Intranet immer komplexer.

 

Für jedes Szenario gibt es diverse Stellschrauben und Komponenten, die zu beachten und für die Qualität der Suche ausschlaggebend sind. Eine „click-and-run“-Installation ist ein passabler Anfang, aber die Tücken stecken für eine gut funktionierende Suche im Detail.

 

Zurück

Der Autor

Jörg Issel

Mit 30 Jahren IT- und Programmiererfahrung beschäftigt sich Jörg Issel, Principal Solution Manager der IntraFind Software AG, seit 1999 intensiv mit dem Thema Suche, insbesondere im heterogenen Unternehmensumfeld.

"Ich versuche immer, die für das Kundenproblem beste Lösung zu skizzieren und diese dann im Dialog mit den Kunden auch effizient umzusetzen. Die beste Software ist nutzlos, wenn sie die Probleme des Anwenders nicht löst."

Zurück