Blogverzeichnis - Bloggerei.de

Sprachmaschinen: das Blog zu Sprachverstehen und Suchmaschinen


Begriffe des Jahres 2013

Publikationsdatum: 2014-01-08
Schlagwörter: Nachrichten, Newsfeeds, Koreferenzen, Akronyme, Namen, Begriffe, deutsche Sprache, Top-Ten, automatisches Sprachverstehen, semantische Analyse

Auch für 2013 haben wir wieder deutschsprachige Nachrichten-Feeds ausgewertet, um die Top-Ten-Themen zu ermitteln. Diese Feeds analysiert unsere tiefe, semantische Suchmaschine SEMPRIA-Search in stündlichen Intervallen. Wir ordneten die Themen nach Personen, Organisationen, Ländern, Regionen und Städten. Im Vergleich zum Vorjahr haben wir unser Zählverfahren verfeinert. Nun werden auch Pronomen mitgezählt, wenn sie sich auf eines der gezählten Objekte beziehen. Diese Bezüge ermittelt die automatische Koreferenz-Auflösung. Damit bekommt die Bundeskanzlerin zehn Punkte in einem Artikel, falls sie einmal mit Namen und neunmal mit Pronomen „sie“ u.a. oder mit einer Amtsbezeichnung wie „die Kanzlerin“ angesprochen wird. Ein banaler Vergleich am Rande wie „... heiratet nach ähnlichem Muster wie Lothar Matthäus“ gibt hingegen für Loddar nur einen Punkt. Achtung: bald zählen wir positive und negative Erwähnungen getrennt. Dann dürfen sich vielleicht ganz andere über Top-Ten-Platzierungen freuen oder ärgern.

Die auffälligsten Aufsteiger des Jahres gibt es bei Personen und Organisationen. Auf Platz 3 bei den Personen (hinter Merkel und Obama): Snowden. Ebenso „NSA“ auf Platz 6 bei den Organisationen, knapp vor der CDU. Warum erscheinen Snowden und NSA eigentlich nicht in den angeblichen Ranglisten bei Google, Bing und anderen? Liegt es daran, dass dort ja die Suchanfragen ausgewertet werden und diese nicht viel mit dem zu tun haben, was in den Nachrichten geschrieben wird? Oder steckt da was anderes dahinter?

Personen (Vorjahresplatz in Klammern, Details):

  1. Angela Merkel (1)
  2. Barack Obama (2)
  3. Edward Snowden (-)
  4. Peer Steinbrück (-)
  5. Mohammed Mursi
  6. Baschar Al-Assad (3)
  7. Franziskus (-)
  8. Wladimir Putin (-)
  9. Silvio Berlusconi (-)
  10. Sigmar Gabriel (-)

Organisationen:

  1. SPD (1)
  2. EU (2)
  3. Grüne (8)
  4. Bundesregierung (4)
  5. Bundestag (6)
  6. NSA (-)
  7. CDU (5)
  8. CSU (10)
  9. Borussia Dortmund (-)
  10. FC Bayern München (9)

Länder:

  1. Deutschland (1)
  2. USA (2)
  3. Syrien (4)
  4. China (6)
  5. Russische Föderation (8)
  6. Frankreich (5)
  7. Italien (9)
  8. Ägypten (-)
  9. Iran (-)
  10. Israel (-)

Regionen:

  1. Europa (1)
  2. Bayern (3)
  3. Nordrhein-Westfalen (2)
  4. Zypern (-)
  5. Hessen (9)
  6. England (7)
  7. Baden-Württemberg (5)
  8. Brandenburg (-)
  9. Asien (8)
  10. Ruhrgebiet (-)

Städte:

  1. Berlin (1)
  2. München (3)
  3. Hamburg (2)
  4. Washington (5)
  5. Düsseldorf (8)
  6. London (4)
  7. New York (6)
  8. Moskau (-)
  9. Köln (-)
  10. Brüssel (7)

Noch ein paar Details zu „NSA“ und „NSU“. „NSA“ als sogenanntes Akronym ist nicht so einfach richtig zu zählen, denn auch die Langform „National Security Agency“ kommt häufiger vor und muss automatisch mit der Kurzform kombiniert werden. „NSU“ hingegen ist ein ganz besonderer Fall, denn es kommt meist versteckt in Komposita wie „NSU-Prozess“ vor. Nur wenn die automatische Komposita-Analyse schnell und zuverlässig läuft, erkennt man die Bedeutung des Themas „NSU“, das die Top-Ten für 2013 nur knapp verfehlte. Oldtimer-Liebhaber haben's allerdings schwer: Autos der alten Marke NSU sind in den Nachrichten quasi nicht existent. Dies ergaben die tiefen semantischen Verfahren unserer Suchmaschine. Anscheinend zuckeln die wenigen fahrtüchtigen Exemplare unfallfrei (und daher erwähnungsfrei) durch die Nachrichten-Lande.


Kommentare

Hier können Sie einen Kommentar abgeben.

Name:

E-Mail-Adresse (wird nicht veröffentlicht):

Ihr Kommentar: