Am Montag war ein Vortragraum ganz den Präsentationen studentischer Forscher gewidmet, sowohl in Vorträgen als auch in einer Poster-Präsentations-Session in der Mittagspause. Eine der Präsentationen in Vortragsform kam von Jonathon Reed und trug den Titel "Using Emoticons to reduce Dependency in Machine Learning Techniques for Sentiment Classification". Es ging also darum, automatisch entscheiden zu können, ob ein Text eine positive oder eine negative Stimmung gegenüber des in ihm beschriebenen Sachverhalts zum Ausdruck bringt.
Eine Automatische Erkennung der Stimmung, die ein Text beinhaltet, hat vielfaeltige Anwendungen, siehe z.B.
Ellen Spertus' Arbeit über die
automatische Erkennung von Flames, ist jedoch eine schwierige Aufgabe für einen Computer - Sarkasmus automatisch zu erkennen ist beinahe unvorstellbar.
Aber auch sonst gibt es zahlreiche Abhängigkeiten, die statistischen Lernverfahren das Leben schwer machen. Da wären zu erst unterschiedliche Domänen, ein Klassifizierer, der trainiert wurde, zu erkennen ob eine Filmkritik gut oder schlecht ausfällt, wird auf Testberichten über Autos eher schlechte Ergebnisse liefern. Insbesondere der bag-of-words-Ansatz (Statistiken über Wörter, ohne Beachtung der Reihenfolge) wird davon geplagt. Ausserdem entgehen diesem Ansatz Negationen, die die Bewertung umkehren.
Aber es gibt daneben auch Abhängigkeiten vom Sprachstil und sogar von der Zeit: Ein auf Filmkritiken in früheren Jahren trainierter Klassifizierer liefert auch auf aktuellen Filmkritiken schlechtere Ergebnisse.
Jonathon Reed vermutet, dass das Problem am geringen Umfang verfügbaren Trainingsmaterials für den Klassifizierer liegt, und schlägt vor, Usenet-Postings als ergiebige Quelle an Trainingsdaten zu nutzen. Dabei sollen die in den Postings vorhandenen Emoticons als Auszeichnung für positive bzw. negative Postings dienen. Diese Strategie stellte sich jedoch als nicht übermäßig erfolgreich heraus. Vielleicht verbessert noch mehr Trainingsmaterial die Ergebnisse, ein Problem ist aber, das Usenet-Postings eine stark verrauschte Datenquelle darstellen. In der anschliessenden Fragestunde argumentierte ein Zuhörer, dies sei ein systematisches Problem, denn Emoticons in Usenet-Postings stellten keine Bewertung des Inhalts des Postings dar, sondern würden die allgemeine Gefühlslage des Posters ausdrücken.
Kommentare
Mo, 05.04.2010 11:17
Naja... Irgendwie bin ich n icht überrascht dass Microsoft Research rausbekommt dass IT- Sicherheit eigentlich to [...]
Mo, 29.03.2010 22:47
Eigentlich nicht. Ausser dass die ganzen me-too-Trackbacks inzwischen auf Twitter stattfi nden (ausser hier). Da [...]
Mo, 29.03.2010 09:06
hat sich deine meinung zu trac kbacks geändert in letzter zei t?
Mi, 21.01.2009 22:33
Aber es hätte auch sein Gutes: Eine Plattform weniger für e klige Linkspammer.
Mi, 21.01.2009 15:39
Ja manchmal hat man im Leben e infach so viele Sachen, denen man sich widmen möchte oder au ch muss, dass da gewisse [...]
Mo, 10.11.2008 14:17
Ich leihe mir ungern eine Fahr rad fahre lieber nur mein eige nes. Hatte mal ein negatives E rlebenis mit einen Leihr [...]
Fr, 25.07.2008 01:50
Schaust Du Wikipedia. «The first version of SQL was devel oped at IBM by Donald D. Chamb erlin and Raymond F. Boy [...]