Colin Bannard und
Chris Callison-Burch ueber
Paraphrasierung mit Hilfe von zweisprachigen Textkorpora. Paraphrasen sind Umschreibungen des selben Sachverhalts mit unterschiedlichen Wörtern und Ausdrücken. Colin Bannard und Chris Callison-Burch stellen in ihrer Arbeit vor, wie man mit Hilfe von zweisprachigen Sprachkorpora solche Umschreibungen automatisch finden kann.
Frühere Arbeiten ueber automatische Paraphrasierung benutzten einsprachige parallele Korpora, wie zum Beispiel mehrere unterschiedliche Übersetzungen des selben Romanklassikers vom Französischen ins Englische, oder speziell für die Evaluation von maschinellen Übersetzungssystemen erstellte Texte (
BLEU). Waehrend dieser Ansatz ziemlich gute Resultate bringt, hat er das Problem, dass das Textmaterial nicht sehr umfangreich ist, und deswegen nur eine beschränkte Anyahl an Paraphrasen extrahiert werden kann.
Colin Bannard und Chris Callison-Burch umgehen das Problem, in dem sie zweisprachige parallele Textkorpora verwenden. Das sind große Sammlungen von Texten und ihren Übersetzungen, die man mit ein paar Tricks kann dazu benutzen kann, um zu einer bestimmten Phrase in einer Sprache die statistisch wahrscheinlichste Übersetzung der anderen Sprache zu ermitteln. Ein beliebter zweisprachiger paralleler Korpus ist der
Europarl-Korpus, der auf den Protokollen des Europäischen Parlaments, die professionell in 11 Sprachen übersetzt sind, basiert. Dieser Korpus umfasst über 28 Millionen Wörter pro Sprache.
Die Übersetzung in der zweiten Sprache fungiert nun als Angelpunkt für das Finden von Umschreibungen. Die gewünschte Phrase wird zuerst in die zweite Sprache übersetzt, und anschliessend werden diese Übersetzungen zurückübersetzt. Dabei ergeben sich meist mehrere mögliche Umschreibungen, denn meist gibt es mehrere Übersetzungen der Phrase von Sprache A nach Sprache B, und natürlich auch mehere Übersetzungen von Sprache B zurück nach Sprache A. Diese werden dann bewertet. Und natürlich passen nicht alle gefunden Umschreibungen auch in den Kontext der Original-Phrase, man muss also eine Methode finden, die unpassenden Paraphrasen auszufiltern.
Viele der unpassenden Kandidaten rühren daher, dass es Homonyme gibt, also Wörter die gleich geschrieben werden, aber unterschiedliche Bedeutungen haben. Mit einer Methode zur Desambiguierung von Wortbedeutungen könnte man also viele unpassende Umschreibungen ausfiltern. Leider gehört die Desambiguierung von Wortbedeutungen zu den schwierigeren Aufgaben in der Computerlinguistik.
Eine weiterer Vorschlag von Bannard und Callison-Burch ist, die Datenbasis dadurch zu vergrößern, indem man mehrere Sprachpaare gleichzeitig verwendet, also z.B. Englisch-Deutsch und Englisch-Spanisch.
In Zukunft wollen die beiden Autoren ihre Bewertungsmechanismen weiter verbessern, dass die gefundenen Paraphrasen nicht nur von ihrer Bedeutung, sondern auch grammatisch besser in den Satz passen.
Kommentare
Mo, 05.04.2010 11:17
Naja... Irgendwie bin ich n icht überrascht dass Microsoft Research rausbekommt dass IT- Sicherheit eigentlich to [...]
Mo, 29.03.2010 22:47
Eigentlich nicht. Ausser dass die ganzen me-too-Trackbacks inzwischen auf Twitter stattfi nden (ausser hier). Da [...]
Mo, 29.03.2010 09:06
hat sich deine meinung zu trac kbacks geändert in letzter zei t?
Mi, 21.01.2009 22:33
Aber es hätte auch sein Gutes: Eine Plattform weniger für e klige Linkspammer.
Mi, 21.01.2009 15:39
Ja manchmal hat man im Leben e infach so viele Sachen, denen man sich widmen möchte oder au ch muss, dass da gewisse [...]
Mo, 10.11.2008 14:17
Ich leihe mir ungern eine Fahr rad fahre lieber nur mein eige nes. Hatte mal ein negatives E rlebenis mit einen Leihr [...]
Fr, 25.07.2008 01:50
Schaust Du Wikipedia. «The first version of SQL was devel oped at IBM by Donald D. Chamb erlin and Raymond F. Boy [...]