ACL05 (28.6.): Paraphrasing with Bilingual Parallel Corpora

 |

flawed concepts

Suche

Archive

Februar 2012
Januar 2012
Dezember 2011
Das Neueste ...
Älteres ...

Kommentare

ixs zu Security Advice Is Wrong
Mo, 05.04.2010 11:17
Naja... Irgendwie bin ich n icht überrascht dass Microsoft Research rausbekommt dass IT- Sicherheit eigentlich to [...]


florian zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 22:47
Eigentlich nicht. Ausser dass die ganzen me-too-Trackbacks inzwischen auf Twitter stattfi nden (ausser hier). Da [...]


Onlineproxy zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 09:06
hat sich deine meinung zu trac kbacks geändert in letzter zei t?


florian zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 22:33
Aber es hätte auch sein Gutes: Eine Plattform weniger für e klige Linkspammer.


Jan zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 15:39
Ja manchmal hat man im Leben e infach so viele Sachen, denen man sich widmen möchte oder au ch muss, dass da gewisse [...]


Dirk zu Call A Bike
Mo, 10.11.2008 14:17
Ich leihe mir ungern eine Fahr rad fahre lieber nur mein eige nes. Hatte mal ein negatives E rlebenis mit einen Leihr [...]


Azundris zu
Fr, 25.07.2008 01:50
Schaust Du Wikipedia. «The first version of SQL was devel oped at IBM by Donald D. Chamb erlin and Raymond F. Boy [...]


Tags

acl05 auto bahn blogs cl clustering fun gemaule hardware java klassik krol linguistics metal musik ner new york city niagaracmt oboe php reisen remember twilight saxophon search semantics server sjbo solaris sun t1 uima

Kategorien

  • XML computing
  • XML english
  • XML german
  • XML life
  • XML meta
  • XML misc
  • XML music
  • XML studies


Alle Kategorien

Blog abonnieren

XML RSS 0.91 feed
XML RSS 1.0 feed
XML RSS 2.0 feed
ATOM/XML ATOM 0.3 feed
ATOM/XML ATOM 1.0 feed
XML RSS 2.0 Kommentare

Verwaltung des Blogs

Login

Powered by

Serendipity PHP Weblog

Dienstag, 28. Juni 2005

ACL05 (28.6.): Paraphrasing with Bilingual Parallel Corpora

Geschrieben von florian um 22:00
Colin Bannard und Chris Callison-Burch ueber Paraphrasierung mit Hilfe von zweisprachigen Textkorpora. Paraphrasen sind Umschreibungen des selben Sachverhalts mit unterschiedlichen Wörtern und Ausdrücken. Colin Bannard und Chris Callison-Burch stellen in ihrer Arbeit vor, wie man mit Hilfe von zweisprachigen Sprachkorpora solche Umschreibungen automatisch finden kann.
Frühere Arbeiten ueber automatische Paraphrasierung benutzten einsprachige parallele Korpora, wie zum Beispiel mehrere unterschiedliche Übersetzungen des selben Romanklassikers vom Französischen ins Englische, oder speziell für die Evaluation von maschinellen Übersetzungssystemen erstellte Texte (BLEU). Waehrend dieser Ansatz ziemlich gute Resultate bringt, hat er das Problem, dass das Textmaterial nicht sehr umfangreich ist, und deswegen nur eine beschränkte Anyahl an Paraphrasen extrahiert werden kann.

Colin Bannard und Chris Callison-Burch umgehen das Problem, in dem sie zweisprachige parallele Textkorpora verwenden. Das sind große Sammlungen von Texten und ihren Übersetzungen, die man mit ein paar Tricks kann dazu benutzen kann, um zu einer bestimmten Phrase in einer Sprache die statistisch wahrscheinlichste Übersetzung der anderen Sprache zu ermitteln. Ein beliebter zweisprachiger paralleler Korpus ist der Europarl-Korpus, der auf den Protokollen des Europäischen Parlaments, die professionell in 11 Sprachen übersetzt sind, basiert. Dieser Korpus umfasst über 28 Millionen Wörter pro Sprache.

Die Übersetzung in der zweiten Sprache fungiert nun als Angelpunkt für das Finden von Umschreibungen. Die gewünschte Phrase wird zuerst in die zweite Sprache übersetzt, und anschliessend werden diese Übersetzungen zurückübersetzt. Dabei ergeben sich meist mehrere mögliche Umschreibungen, denn meist gibt es mehrere Übersetzungen der Phrase von Sprache A nach Sprache B, und natürlich auch mehere Übersetzungen von Sprache B zurück nach Sprache A. Diese werden dann bewertet. Und natürlich passen nicht alle gefunden Umschreibungen auch in den Kontext der Original-Phrase, man muss also eine Methode finden, die unpassenden Paraphrasen auszufiltern.

Viele der unpassenden Kandidaten rühren daher, dass es Homonyme gibt, also Wörter die gleich geschrieben werden, aber unterschiedliche Bedeutungen haben. Mit einer Methode zur Desambiguierung von Wortbedeutungen könnte man also viele unpassende Umschreibungen ausfiltern. Leider gehört die Desambiguierung von Wortbedeutungen zu den schwierigeren Aufgaben in der Computerlinguistik.
Eine weiterer Vorschlag von Bannard und Callison-Burch ist, die Datenbasis dadurch zu vergrößern, indem man mehrere Sprachpaare gleichzeitig verwendet, also z.B. Englisch-Deutsch und Englisch-Spanisch.

In Zukunft wollen die beiden Autoren ihre Bewertungsmechanismen weiter verbessern, dass die gefundenen Paraphrasen nicht nur von ihrer Bedeutung, sondern auch grammatisch besser in den Satz passen.
Kommentare (0) | Trackbacks (0)
Tags für diesen Artikel: acl05, cl, corpora
Artikel mit ähnlichen Themen:
Personality Mining
ACL05 (28.6.): A Quantitative Analysis of Lexical Differences in Genders...
ACL05 (27.6.) Using Emoticons [...] for Sentinent Classification
ACL05 (26.6.): Extracting Semantic Orientation using Spin Model
ACL05 (26.6.): Seeing Stars...
ACL05 (26.6.) Invited Talk: "Why you have a body and what it is used for"
Tags für diesen Artikel: acl05, cl, corpora
Artikel mit ähnlichen Themen:
Personality Mining
ACL05 (28.6.): A Quantitative Analysis of Lexical Differences in Genders...
ACL05 (27.6.) Using Emoticons [...] for Sentinent Classification
ACL05 (26.6.): Extracting Semantic Orientation using Spin Model
ACL05 (26.6.): Seeing Stars...

Trackbacks
Trackback für spezifische URI dieses Eintrags

Keine Trackbacks

Kommentare
Ansicht der Kommentare: (Linear | Verschachtelt)

Noch keine Kommentare

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA

 
 
 
Powered by Serendipity | Template by Perun