Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Semantische Suchmaschine für die deutsche Wikipedia

Publikationsdatum: 2018-05-04
Letzte Änderung: 2018-08-28
Schlagwörter: semantische Suche, Fragebeantwortung, deutsche Wikipedia, WILOT

In diesem Text wollen wir uns den Möglichkeiten der semantischen Suche innerhalb von stetig wachsenden Wissensbasen widmen. Vorher soll allerdings angemerkt werden, dass dies auch in eigener Sache geschieht, denn die verwendete Suchmaschine ist keine andere als unsere eigene. Die Wikipedia wächst, und sie ist für viele ein unverzichtbares Nachschlagewerk geworden. Mittlerweile (Stand: 2018-08-01) gibt es 2,2 Millionen Artikel in deutscher Sprache und jeden Tag kommen neue hinzu und mit ihnen unzählige neue Informationen. Dies ist zu begrüßen, und das Erreichen bestimmter Meilensteine wird von Wikipedia sogar feierlich bekanntgegeben. Nichts läge uns ferner, als die berechtigte Begeisterung zu dämpfen. Doch muss dabei bedacht werden, dass eine wachsende Zahl von Informationen auch bedeutet, dass es immer schwieriger wird, eine einzelne, ganz bestimmte darin zu finden, wenn man sie braucht. WILOT, der Wissenspilot, ist unser Versuch, die Vorteile der tiefen semantischen Suche für Wikipedia zu nutzen.Semantische Suche für Wikipedia

Natürlich verfügt Wikipedia auch über eine eigene Suchmaschine. Dabei handelt es sich jedoch um eine simple Stichwortsuche, die eingegebene Wörter und Phrasen lediglich wiederfindet, ohne sie dabei zu verstehen. Die Suche ist durchaus geeignet, die passenden Artikel zu finden, vorausgesetzt die eingegebene Suchanfrage ähnelt der Überschrift des Artikels oder der Formulierung in einem Artikeltext.

Eine Bedeutungssuche kann mehr als das. Denn den passenden Artikel zu finden, ist oft nur die halbe Miete. Nicht selten sind diese Artikel von großem Umfang. Auch ein Inhaltsverzeichnis kann da die Nutzersuche nach einer spezifischen Information meist nicht beschleunigen. Was wäre also, wenn man mithilfe der Suche nicht bloß ellenlange Artikel finden würde, die irgendwo die gesuchte Information enthalten, sondern direkt und ohne Umwege nach dieser einen ersehnten Information suchen könnte? Spätestens hier stößt die reine Stichwortsuche an ihre Grenzen, und ein tiefer semantischer Ansatz wird benötigt. So kann man beispielsweise direkt fragen: „Wann begann die französische Revolution?“. Natürlich kann man es mit derartigen Eingaben auch bei der Stichwortsuche versuchen, das Ergebnis ist jedoch unbefriedigend. Die semantische Suche hingegen beantwortet diese Frage einfach mit „1789“.

An dieser Stelle ein zweites Beispiel: Bei einer etwaigen Recherche über die Dresdner Bank und deren Verkauf an die Commerzbank durch die Allianz, wäre eine Suchanfrage wie die folgende denkbar: „Verkauf der Dresdner Bank“. Die Wikipedia-Suche liefert allerdings eine ganze Reihe unpassender Ergebnisse. Der Grund dafür kann darin liegen, dass im relevantesten Absatz des passenden Artikels nicht von „Verkauf“ die Rede ist, sondern von einem „Weiterverkauf“. Eine Suchmaschine ohne semantisches Wissen kann unmöglich erkennen, dass ein Weiterverkauf auch ein Art Verkauf ist und übersieht so die Relevanz des entsprechenden Artikels, weshalb dieser erst hinter den irrelevanten Treffern erscheint. Die semantische Suchmaschine vermeidet derartige Fehler gleich auf zweierlei Weise. Zum einen ist der semantischen Suchmaschine wie auch dem Menschen die Verknüpfung von „Verkauf“ und „Weiterverkauf“ bekannt. Zum anderen generiert WILOT zu jeder gestellten Anfrage eine Vielzahl von möglichen Umformulierungen mit gleicher oder zumindest sehr ähnlicher Bedeutung, was die Chancen auf vernünftige Suchergebnisse noch weiter erhöht. Ohne tiefes semantisches Verständnis ist weder das eine noch das andere möglich.

Natürlich kann WILOT (wie alle Suchmaschinen) nur die Informationen finden, die tatsächlich in der Quelle (hier: Wikipedia) stehen. Doch ebenso gilt, dass die Informationen, die in der Wikipedia stehen und nicht gefunden werden können, niemandem nutzen. Die Qualität einer Wissensbasis lässt sich demnach nicht allein an ihrem Umfang messen. Der Suchmaschine kommt eine ähnlich wichtige Rolle zu. Es ist also angemessen, bei einer immer weiter wachsenden Wissensbasis wie Wikipedia auch auf die wachsende Qualität der Suchtechnologie zu dringen. Die Nutzung von WILOT zeigt, was mit tiefer semantischer Suche innerhalb der Wikipedia möglich ist.Wikipedia-Suche WILOT

Beispiele zum Nachsuchen

Die in diesem Blog üblichen Links zum Ausprobieren der genannten Beispiele sind diesmal nicht möglich. Sie müssen sich zunächst mit drei kurzen Eingaben bei WILOT registrieren und dann einloggen. Danach kann nach Herzenslust recherchiert werden.

Bilder: © SEMPRIA GmbH


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: