Die Machete für den Datendschungel: Die semantische Suche (1/3)
Beitrag von IntraFind Software AG, © 2007 by IntraFind Software AG
Über viele Anwender schwappt eine Datenflut hinweg, der sie mit ineffizienten Software-Tools und Prozessen nicht mehr Herr werden. Die Zunahme der Information in Unternehmen steigt rasant: Alle zwei- bis drei Jahre verdoppelt sich die Menge des Wissens auf den Festplatten der Firmen. Das ist per se noch kein Problem - Speichermedien sind billig und werden immer billiger. Doch die Auswirkungen können verheerend sein: Die aufwändige Informationssuche senkt die Produktivität der Mitarbeiter und verursacht Kosten von durchschnittlich 18 000 Dollar pro Mitarbeiter und Jahr, so Bill Gates auf der CEO Summits in Redmond. Das Problem sind unstrukturierte Daten, so Gates. Bereits heute machen sie gut die Hälfte aller gespeicherten Information in einem Unternehmen aus, Tendenz steigend.
Diese Daten nutzbar zu machen, also für jeden berechtigten Mitarbeiter schnell zur Verfügung zu stellen, ist eine Aufgabe, die mehr und mehr Unternehmen bewusst wird. Der Analyst Gartner schätzt die Ausgaben der Firmen für Lizenzen zu Search-Technologie auf nahezu 368 Mio. Dollar in 2006 und rechnet mit erheblichen Steigerungen. Der Markt für Enterprise-Searches erfährt derzeit ein Wachstum von gut 30 Prozent jährlich. Vielen Firmen ist bewusst, dass Knowledge Management eine der großen Herausforderungen für die Zukunft ist.
Gerade Unternehmen, die mit Dokumenten in verschiedenen Sprachen arbeiten, sind auf eine ausgereifte Suchtechnik angewiesen. Eine aufwändige, aber unschlagbar effektive Möglichkeit ist der Einsatz einer Linguistik, anhand derer die Sprache „verstanden“ wird, um die Suche nach Information qualitativ hochwertiger und gezielter zu gestalten. Bei der Suche in großen Textbeständen ist es z.B. wünschenswert, auch Dokumente zu finden, die zwar nicht explizit die angegebenen Suchbegriffe, dafür aber stark verwandte Begriffe enthalten. Diese Art der Suche wird auch als semantische Suche bezeichnet. Beispielsweise sucht ein Nutzer nach dem Begriff "Atomkraftwerk". Treffer, die den Begriff "Kernreaktor" enthalten sind mit Sicherheit ebenso wichtig - würden ohne eine semantische Suche aber untergehen.
Ganz ähnlich verhält es sich bei der cross-lingualen Suche. Hier möchte der Benutzer neben Dokumenten, die explizit seine Suchbegriffe enthalten auch Dokumente finden, die in einer anderen Sprache verfasst sind und Übersetzungen der Suchbegriffe oder verwandter Begriffe enthalten.
Semantische und cross-linguale Suchen lassen sich durch Verwendung eines so genannten "Begriffsnetzes", oder auch „Wortwolke“, realisieren. Darunter versteht man ein Wörterbuch, das für seine Einträge verwandte Begriffe (Synonyme, Ober- und Unterbegriffe usw.) und/oder Übersetzungen enthält. Ist die Suche semantisch erweitert, wird die Suchanfrage mit assoziierten Begriffen aus einem solchen Begriffsnetz erweitert. Es geht also darum, mit einer Wortwolke ein ganzes Feld von Begriffen, die in einer Beziehung zueinander stehen, abzudecken. Dies kann vollautomatisch geschehen, oder der Benutzer kann sich die Erweiterungsvorschläge anschauen und nach Wunsch korrigieren. Oft wird das Begriffsnetz mit Fachwörtern angereichert, indem man beispielsweise einen Firmenthesaurus einbindet.
|