Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Begriffe des Jahres 2012

Publikationsdatum: 2013-01-21
Schlagwörter: automatisches Sprachverstehen, semantische Analyse, Nachrichten, Newsfeeds, Mehrdeutigkeit, Namen, Begriffe, deutsche Sprache, Top-Ten

Das Jahr 2012 ist zu Ende, unsere semantischen Analysemaschinen haben die letzten Auswertungen von Nachrichten abgeschlossen. Zeit für einen Rückblick auf die Begriffswelt des Jahres 2012. Da die semantische Suchmaschine SEMPRIA in der Lage ist, Texte und Anfragen ziemlich weitgehend zu verstehen, verfügen wir über genaue und detaillierte semantische Darstellungen wichtiger deutschsprachiger Nachrichten-Feeds von 2012. Dabei interessiert natürlich, worüber Journalisten und Journalistinnen vorwiegend berichteten. Wir ermittelten deshalb auch die allseits beliebten Top-Ten, klassifiziert nach Personen, Organisationen, Ländern, Regionen und Städten. Wohl gemerkt: wir schauen nur auf die Nachrichtentexte, nicht auf das, was Nutzer (angeblich) suchten. Letzteres ist natürlich auch möglich, ist aber ein anderes Thema.

Nach den Top-Ten finden Sie einige Erläuterungen zu Problemen, die bei einer semantischen Analyse auch heute noch auftreten.

Personen:

  1. Angela Merkel
  2. Barack Obama
  3. Baschar Al-Assad
  4. Christian Wulff
  5. Ban Ki-Moon
  6. Mitt Romney
  7. Wolfgang Schäuble
  8. Guido Westerwelle
  9. Philipp Rösler
  10. Kofi Annan

Organisationen:

  1. SPD
  2. EU
  3. FDP
  4. Bundesregierung
  5. CDU
  6. Bundestag
  7. UNO
  8. Grüne
  9. FC Bayern München
  10. CSU

Länder:

  1. Deutschland
  2. USA
  3. Griechenland
  4. Syrien
  5. Frankreich
  6. China
  7. Spanien
  8. Russische Föderation
  9. Italien
  10. Großbritannien

Regionen:

  1. Europa
  2. Nordrhein-Westfalen
  3. Bayern
  4. Niedersachsen
  5. Baden-Württemberg
  6. Schleswig-Holstein
  7. England
  8. Asien
  9. Hessen
  10. Kalifornien

Städte:

  1. Berlin
  2. Hamburg
  3. München
  4. London
  5. Washington
  6. New York
  7. Brüssel
  8. Düsseldorf
  9. Athen
  10. Paris

Schon bei diesen wenigen Begriffen erkennt man klassische Probleme der Computerlinguistik, die auch bei der automatischen Erstellung solcher Listen auftreten. Das wichtigste Problem ist nach wie vor die richtige Auflösung von „Mehrdeutigkeiten“ (oder Ambiguität: ein Wort kann ganz verschiedene Begriffe bezeichnen): nur der Kontext kann manchmal helfen, zu entscheiden, ob „Bayern“ wirklich das Bundesland „Bayern“ meint, oder dessen Bewohner oder gar den bekannten Fußballclub aus der Landeshauptstadt. Wirft man alle Vorkommen von „Bayern“ in einen Topf, so kann man nicht mehr unterscheiden, ob das Land Bayern, die Menschen in Bayern oder aber der Fußballclub ein heißes Thema für die Nachrichtenwelt war. Mit modernen computerlinguistischen Verfahren gelingt diese Unterscheidung jedoch oft.

Apropos Fußball. Hier treffen wir auf die nächste Schwierigkeit. „Synonyme“ und „Namensvarianten“ (das sind oberflächlich verschiedene Wörter, denen ein und derselbe Begriff zugrunde liegt) wie „Borussia Dortmund“, „BVB 09“, „BVB“ oder „Borussia“, sollten für die Top-Ten-Bestimmung gleich behandelt und ihre Häufigkeiten addiert werden, denn trotz der unterschiedlichen Bezeichnungen geht es ja um dieselbe Sache.

Achtung: die Bezeichnung „Borussia“ führt uns womöglich an den Niederrhein, nach Mönchengladbach! Und das ist wieder ein schönes Beispiel für nervende Verwechslungen: die Stadt hieß bis vor zwei Generationen München-Gladbach und wurde aus schierer Verzweiflung umbenannt. Welche Borussia gemeint ist, können unsere Programme schon häufig durch Auflösung der sogenannten Koreferenz erkennen - also: welcher Ausdruck (z.B. „Borussia“) bezieht sich auf welchen vorangehenden Ausdruck (z.B. „Borussia Dortmund“). Dazu ist auch für den Menschen Hintergrundwissen erforderlich, das für den Computer leider (noch) nicht in allen Fällen zur Verfügung steht. Mit seiner semantischen Analyse und dem bereits codierten Hintergrundwissen arbeitet SEMPRIA Search aber schon jetzt wesentlich genauer als einfache Algorithmen, die nur isolierte Wörter berücksichtigen.

Abschließend noch eine Erklärung, warum in solchen Statistiken (übrigens in anderen Häufigkeitslisten auch!) die CDU nicht so bald die SPD übertreffen kann. Die CDU wird oft nur als „Union“ benannt (je nach Kontext mit und ohne CSU; aber das wäre wieder Anlass für einen weiteren Artikel). „Union“ ist nämlich ein Allerweltswort, das häufig eben nichts mit Parteien zu tun hat. Also Vorsicht bei der Wahl von Namen, und besonders bei der Verwendung von journalistisch geprägten Kurznamen, wenn man in Statistiken weit oben landen will. Nennen Sie deshalb Ihr neues Produkt lieber nicht BVB.


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: