Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Komposita: Aus zweimal alt mach einmal neu

Publikationsdatum: 2018-01-19
Schlagwörter: Kompositum, Zusammensetzung, zusammengesetzte Wörter, Regeln, exozentrische Komposita, Beispiele für tiefe semantische Suche

Egal wie groß unser kollektiver Wortschatz auch sein mag, fertig ist er nie. So wie unsere Welt tagtäglich neue Dinge und Phänomene hervorbringt, muss auch unsere Sprache stetig neue Wörter kreieren, um mit der Welt schrittzuhalten. Kurz gesagt: Neue Dinge brauchen neue Wörter. Dazu hat unsere Sprache allerhand Mittel und Wege. Wörter können in Form von Neologismen ganz einfach neu erfunden oder aus anderen Sprachen entlehnt werden. Allerdings verfügt unsere Sprache auch über eine Methode, die aus verschiedenen Gründen sehr viel einfacher und praktischer ist - Komposition. Sie ist das wohl wichtigste Mittel der Wortschatzerweiterung.

Bei der Komposition werden (zumeist zwei) bereits vorhandene Wörter zu einem neuem zusammengesetzt. Das Ergebnis nennen wir ein Kompositum. Dabei ist es in der Regel so, dass das Bestimmungswort (das erste Wort) das Grundwort (das zweite Wort des Kompositums) näher beschreibt. Eine Steinmauer ist demnach eine Mauer, die aus Steinen besteht. In der Regel setzen sich Komposita aus zwei Wörtern zusammen, die allerdings ebenfalls Komposita sein können. So verstehen wir „Fußballstadion“ nicht als „Fuß“ + „Ball“ + „Stadion“, sondern als „Fußball“ + „Stadion“.

Der große Vorteil dieser Methode liegt darin, dass die neu entstandenen Wörter oftmals keiner Erklärung und keiner näheren Definition bedürfen. Wer die Wörter „Schokolade“ und „Torte“ kennt, der wird vermutlich auch das Wort „Schokoladentorte“ schon beim ersten Hören verstehen, auch wenn es nicht näher erklärt wird. So ist auf intuitive Weise ein neues Wort entstanden. Eine zusätzliche Hilfe liegt in der Tatsache, dass Komposita sehr produktiv sind und sich oftmals vergleichbare Fälle finden lassen. Eine Obsttorte ist eine Torte, die zu einem großen Teil aus Obst besteht. Dann wird eine Schokoladentorte wohl eine Torte sein, die zu einem großen Teil aus Schokolade besteht.

Die semantische Suche profitiert ganz ähnlich wie der Mensch von dieser Art der Informationsverdichtung. Durch den Einsatz einer modernen Komposita-Analyse zerlegt die Suchmaschine ein unbekanntes Kompositum in seine Bestandteile und kann daraufhin die Bedeutung des Kompositums erschließen. Dabei greift die Software auf ein großes Computerlexikon, eine wachsende Datenbank bereits bekannter Komposita, Verfahren des maschinellen Lernens u.a. zurück.

Durch Einsatz der Datenbank kann zusätzlich einigen typischen Problemen der Komposition entgegengesteuert werden. Denn nicht immer sind Komposita mit ähnlichem Aufbau auch sinngemäß analog zueinander wie die oben genannten Obst- und Schokoladentorten. Eine Softwarefirma entwickelt Software, aber eine Briefkastenfirma entwickelt schließlich keine Briefkästen. Je größer die Datenbank wird, desto wahrscheinlicher ist es, dass die Suchmaschine eine Art Präzedenzfall für ein unbekanntes Kompositum finden kann. In jedem Fall erkennt die Analyse, dass es sich bei einer Briefkastenfirma um eine Firma handelt, womit bereits eine wichtige Erkenntnis erlangt wurde.

Nasenfahrrad als besonderes Kompositum
Radelt man mit einem Nasenfahrrad?

Nun gibt es jedoch einen Typ von Komposita, bei denen jede Analyse zwangsläufig scheitert (so ist ein Geizhals ja kein Hals). Auch der Mensch ist bei diesem Typ auf zusätzliche Erklärung angewiesen. Bei einem exozentrischen Kompositum liegt keine Informationsverdichtung vor und seine Bedeutung ergibt sich gerade nicht aus seinen Bestandteilen. Auch wenn das Kompositum aus zwei bekannten Wörtern besteht, so muss die Bedeutung trotzdem erlernt werden, wie bei einem neuen, unbekannten Wort. Die semantische Suchmaschine ist in diesem Fall darauf angewiesen, dass ein eigener Lexikoneintrag vorliegt. Da der Mensch bei exozentrischen Komposita ins Schwitzen kommen kann, ist das für eine Maschine wohl verzeihlich. Sicherlich versteht nicht jeder unserer Leser „Nasenfahrrad“, zumindest wenn er oder sie kein Brillenträger ist.

Beispiele zum Nachsuchen

  • Die Suchanfrage „Verkehrsinsel“ findet zwei Dokumente. Diese Verkehrsinsel-Treffer werden korrekterweise bei der Suche nach Insel nicht gezeigt; weiterhin findet die semantische Suchmaschine passende Treffer mit Komposita wie „Pazifik-Insel“.
  • „Schallmauer“ findet einige Dokumente. All diese passen aber nicht bei der Suche nach „Mauer“ und werden daher ausgeblendet. Bei der Mauer-Suche werden aber regelhaft gebildete Zusammensetzungen wie „Betonmauer“ und „Klagemauer“ gefunden (und zwar auf hinteren Ergebnis-Seiten, da die genauen Treffer Mauer-Mauer intern etwas höher bewertet werden).

Bild: © Fotolia


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: