Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Regionale Sprache - Nur Kauderwelsch für Suchmaschinen?

Publikationsdatum: 2015-10-27
Schlagwörter: regionale Sprache, Dialekte, Suchmaschinen, Synonyme, Suchalgorithmen, Zusammensetzungen

Ein überraschender Frühstücksgast erscheint am Morgen eines Feiertags, und Sie stehen vor verschlossenen Bäckereitüren. Nun, Sie als guter Gastgeber lassen sich selbstverständlich sofort etwas einfallen: es wird selbstgebackene Brötchen geben. Mit ein bisschen Hilfe aus dem Internet kann das so schwer nicht sein. Sie geben also „Brötchenrezept“ oder „Rezept für Brötchen“ in eine Suchmaschine ein. Diese hat natürlich keine Vorstellung davon, was ein Brötchen ist und was man damit anstellt. Das Wort wird nicht verstanden, es wird lediglich als Zeichenkette identifiziert.

Solange wir eine gemeinsame Sprache sprechen, dürfte dieser Umstand aber kein Problem darstellen, schließlich sollte jeder deutsche Muttersprachler wissen, was ein Brötchen ist. Aber sprechen alle tatsächlich die gleiche Sprache? Natürlich braucht der Rostocker keinen Dolmetscher, um sich dem Stuttgarter oder dem Münchner verständlich zu machen. Doch völlig deckungsgleich sind ihre Sprachen nicht. Die Rede ist von regionalen Unterschieden. Das können aussprachliche Unterschiede (bei Dialekten), grammatische Eigenheiten und - für die Suchmaschine von besonderem Interesse - lexikalische Unterschiede sein.

Kehren wir noch einmal an den Frühstückstisch zurück. Ihr ungebetener Frühstücksgast stellt sich als ausgesprochen wählerisch heraus. Kalorienarm, fettreduziert, vegan, Gluten-frei, leicht bekömmlich, förderlich für die Verdauung und für Allergiker geeignet sollen die selbstgebackenen Brötchen sein. Und schon schrumpft die Liste der Suchtreffer mit jeder weiteren Restriktion. Vielleicht schlummert das perfekte Rezept tatsächlich in den Tiefen des Netzes, dummerweise jedoch auf einer Internetseite, auf der zufällig von „Semmeln“ oder „Wecken“ die Rede ist. Sprache ist immer regional. Begriffe, die für Sie zum Alltag gehören, können einem anderen Sprecher Ihrer Sprache fremd oder unklar sein. Das Internet-Zeitalter mag eine gewisse Einheitssprache fördern, doch die regionalen Eigenheiten sind zu groß, um von einer guten Suchmaschine ignoriert zu werden. Uns mag der ein oder andere regionale Unterschied trivial erscheinen („Brötchen“ heißen in Bayern „Semmeln“, das ist nicht gerade Raketenwissenschaft), doch für eine Suchmaschine, die bloß inhaltsleere Zeichenketten vergleicht, kann auch das Fehlen einer einfachen Information zu einer ergebnislosen Suche führen.

Diesem Problem kann man mit Synonymwissen und geeigneten Algorithmen begegnen. Die Suchmaschine muss dazu noch immer nicht wissen, wie frisch gebackene Brötchen riechen. Man muss ihr lediglich beibringen, dass Brötchen, Semmel, Wecken ... dasselbe meinen. Und schon sieht Ihre Suche wieder ein wenig vielversprechender aus. Gelöst ist das Problem damit allerdings noch nicht. Die schwierigen Fälle werden sogar noch zahlreicher, weil man nun den unaufhaltsamen Zusammensetzungs-Drang (Komposition) des Deutschsprechers berücksichtigen muss. Auch wenn die Suchmaschine nun weiß, dass Brötchen gleich Semmel ist, so ist dennoch einiges an Analyse notwendig, damit Brötchenbäcker und Semmelbäcker, Roggenbrötchen und Roggensemmel (und Schrippen aus Roggen uvm.) intelligent verknüpft werden. Dies erfordert neben dem Synonymwissen auch clevere Algorithmen für zusammengesetzte Wörter.

Das Ausnutzen von Synonymwissen kann aber negative Auswirkungen auf die Qualität der Suchergebnisse haben, wenn das Sprachverstehen der Suchmaschine beschränkt ist. Erweitert die Suchmaschine die Suchanfrage selbständig um Begriffe wie „Semmeln“ und „Wecken“, dann sind die Treffer zu vermeiden, in denen Stürmer „über das Tor semmeln“ oder Schüler beim frühen „Wecken“ aus allen Wolken fallen. Die ersten semantischen Suchmaschinen schreckten damit Nutzer ab. Hier muss eine tiefe semantische (bedeutungsorientierte) Suchmaschine anhand des Zusammenhangs erkennen, welche Bedeutung einer Zeichenkette zugrundeliegt. Denn in Texten wimmelt es für den Computer nur so von solchen Mehrdeutigkeiten.

Zusammensetzungen und Mehrdeutigkeiten haben zweifelsohne eigene Artikel verdient, so dass wir uns erst einmal mit den regionalen Backerzeugnissen, hoffentlich satt und zufrieden, begnügen.

Bilder: © SEMPRIA GmbH


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: