Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Hintergrundwissen im Vordergrund

Publikationsdatum: 2016-08-23
Letzte Änderung: 2016-08-29
Schlagwörter: Hintergrundwissen, geografisches Wissen, semantische Suche, Kleinjena

Bescheidenheit ist etwas, was dem modernen Menschen nur selten vorgeworfen werden kann. Allerdings gibt es Bereiche, in denen er sich doch kleiner macht, als er ist. So wird das eigene Hintergrundwissen oft als selbstverständlich angesehen und bei Lesern, Zuhörern oder Gesprächspartnern vorausgesetzt. Dies kann in den verschiedensten Bereichen zu Problemen führen. So sieht der Nachrichtenredakteur vielleicht von einer näheren Erläuterung eines Ereignisses ab, auf welches Bezug genommen wird. Oder der Mathematiklehrer überspringt einen zentralen Teil seiner Erklärung, weil „das ja klar ist“. Natürlich muss ein gewisser Anspruch an Leser, Zuhörer, Schüler, Kunden etc. gestellt werden. Nicht jede Staumeldung kann im Jahre 1886 mit dem „Patent-Motorwagen“ eines Herrn Benz beginnen. Die richtige Menge an Hintergrundwissen beim Leser oder Hörer vorauszusetzen, aber nichts Wichtiges unerwähnt zu lassen, ist eine Gratwanderung. Doch selbst wenn das richtige Maß gefunden und ein menschlicher Kommunikationspartner richtig behandelt wird, bleibt eine wichtige Frage ungeklärt. Was bedeutet das für Suchmaschinen?

Kartenausschnitt mit Kleinjena (Quelle: OpenStreetMap)

Gehen wir einmal von einem Online-Zeitungsarchiv mit Suchfunktion aus. In jedem Artikel bleiben Leerstellen, die mit Hintergrundwissen ausgefüllt werden müssen. Das ist für den Urheber und den Leser der Texte selbstverständlich (und zwar in einem Maße, dass es nahezu unbewusst geschieht). Doch wenn dies so selbstverständlich ist, wie kann ein solcher Anspruch dann an den Nutzer, nicht aber an die Suchmaschine, die für den Nutzer relevante Artikel finden soll, gestellt werden? Wie kann eine Suchmaschine unter diesen Umständen Treffer liefern, die einen informierten Benutzer zufriedenstellen? Sie kann es normalerweise nicht, zumindest nicht ohne Hintergrundwissen. Die für eine Suche relevanten Informationen können aus den verschiedensten Wissenszweigen stammen. Zur Veranschaulichung ein Beispiel mit geografischem Wissen:

„Römer in Sachsen-Anhalt - neue Beweise gefunden. Die Römer waren weiter über das heutige Deutschland verteilt , als bisher angenommen. Das haben Archäologen bei der Untersuchung von Funden aus der frühen römischen Kaiserzeit in Halle festgestellt. Die haben gezeigt, dass die Römer tiefer ins heutige Gebiet von Sachsen-Anhalt vorgedrungen sind als gedacht. Ein Sprecher des Landesmuseums für Vorgeschichte in Halle sagte, dass das zum Beispiel bewiesen wird durch eine kleine Flasche aus Achat. Die sei nahe einer kaiserzeitlichen Siedlung bei Kleinjena im Burgenlandkreis entdeckt worden und stamme aus dem ersten Jahrhundert nach Christus. Der Sprecher erklärte, dass solche Edelsteingefäße bisher in Deutschland nur in Köln und in Nebra entdeckt wurden.“ (Quelle: DRadio-Wissensnachrichten vom 2013-07-04)

Nun zum Problem. In dieser kurzen Meldung wird mit keiner Silbe erklärt, zu welcher Stadt das erwähnte Kleinjena gehört - richtige Antwort wäre Naumburg (Saale). Es handelt sich also um vorausgesetztes Hintergrundwissen, vor allem, wenn der Artikel ursprünglich aus einer Naumburger Lokalzeitung stammt, denn ein wahrer Naumburger weiß natürlich, wo Kleinjena liegt (s. Bild oben). Folgendes Szenario ist nun denkbar. Jemand ist auf der Suche nach „kaiserzeitliche Siedlung in Naumburg“. Natürlich wäre die vorliegende Meldung ein relevanter Suchtreffer, doch an dieser Stelle stößt die traditionelle Suchmaschine bereits an ihre Grenzen. Für sie könnte das Wort „Tütensuppe“ ebenso gut einen Stadtteil von Naumburg bezeichnen wie das Wort „Kleinjena“ (oder „Großjena“, wenn wir schon dabei sind). Dieses Problem lässt sich allein nach dem Vorbild des Menschen lösen. Die Suchmaschine braucht das gleiche Hintergrundwissen, über das auch er verfügt. Die Arbeit einer intelligenten Suchmaschine kann man sich in etwa so vorstellen. Sie analysiert (neben vielen anderen) den vorliegenden Artikel. Das Wort „Kleinjena“ wird verstanden und als Stadtteil von Naumburg (Saale) erkannt, denn sie bringt zusätzlich ihre Kenntnis von Teil-Ganzes-Beziehungen ins Spiel. Eine intelligente Suchmaschine weiß, dass Kleinjena ein Teil von Naumburg ist und dass damit jede kaiserzeitliche Siedlung in Kleinjena logischerweise auch als kaiserzeitliche Siedlung in Naumburg bezeichnet werden kann. Die vorliegende Meldung ist also ein relevanter Treffer.

Wenn wir jemanden mit einer Recherche beauftragen, so würden wir doch sicherlich jemanden bevorzugen, der bereits Ahnung von der Materie hat. Die Professorin, die einen wissenschaftlichen Mitarbeiter einstellt, erwartet nicht, dass dieser über den gleichen Wissensstand verfügt. Aber eine gewisse Grundkenntnis wird vorausgesetzt. Den gleichen Anspruch müssen wir an die Suchmaschine stellen, denn schließlich tut sie nichts Anderes, als bei unseren Recherchen eine Vorauswahl zu treffen.

Links zum Nachsuchen:

Bild: © SEMPRIA, OpenStreetMap


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: