studies

 |

flawed concepts

Suche

Archive

Juli 2010
Juni 2010
Mai 2010
Das Neueste ...
Älteres ...

Kommentare

ixs zu Security Advice Is Wrong
Mo, 05.04.2010 11:17
Naja... Irgendwie bin ich n icht überrascht dass Microsoft Research rausbekommt dass IT- Sicherheit eigentlich to [...]


florian zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 22:47
Eigentlich nicht. Ausser dass die ganzen me-too-Trackbacks inzwischen auf Twitter stattfi nden (ausser hier). Da [...]


Onlineproxy zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 09:06
hat sich deine meinung zu trac kbacks geändert in letzter zei t?


florian zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 22:33
Aber es hätte auch sein Gutes: Eine Plattform weniger für e klige Linkspammer.


Jan zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 15:39
Ja manchmal hat man im Leben e infach so viele Sachen, denen man sich widmen möchte oder au ch muss, dass da gewisse [...]


Dirk zu Call A Bike
Mo, 10.11.2008 14:17
Ich leihe mir ungern eine Fahr rad fahre lieber nur mein eige nes. Hatte mal ein negatives E rlebenis mit einen Leihr [...]


Azundris zu
Fr, 25.07.2008 01:50
Schaust Du Wikipedia. «The first version of SQL was devel oped at IBM by Donald D. Chamb erlin and Raymond F. Boy [...]


Tags

acl05 auto bahn blogs cl clustering fun gemaule hardware java klassik krol linguistics metal musik ner new york city niagaracmt oboe php reisen remember twilight saxophon search semantics server sjbo solaris sun t1 uima

Kategorien

  • XML computing
  • XML english
  • XML german
  • XML life
  • XML meta
  • XML misc
  • XML music
  • XML studies


Alle Kategorien

Blog abonnieren

XML RSS 0.91 feed
XML RSS 1.0 feed
XML RSS 2.0 feed
ATOM/XML ATOM 0.3 feed
ATOM/XML ATOM 1.0 feed
XML RSS 2.0 Kommentare

Verwaltung des Blogs

Login

Powered by

Serendipity PHP Weblog

Donnerstag, 5. Juni 2008

A Literature Survey on Domain Adaptation of Statistical Classifiers

Geschrieben von florian in english, studies um 22:36
Domain Adaptation (i.e.: you train a statistical classifier on one type of text but want to use it on a different type of text) is one of my research interests.

Recently I found a great survey of publications on domain adaptation:
A Literature Survey on Domain Adaptation of Statistical Classifiers,
by Jing Jiang, who is a PhD candidate at UIUC and has written some interesting papers on domain adaptation herself, such as
Instance weighting for domain adaptation in NLP.
Kommentare (0) | Trackbacks (0)

Donnerstag, 24. Mai 2007

Nachtrag zum Vortrag "Sprache und Verbrechen"

Geschrieben von florian in studies um 17:44
Ein Nachtrag zum Vortrag "Sprache und Verbrechen" von Sabine Ehrhardt, bei dem es darum ging, wie das BKA anhand der Sprache von z.B. Bekennerschreiben, Erpresserbriefen usw. versucht,. Informationen über den Täter abzuleiten.

Dabei kam auch die Frage nach statistischen Methoden auf, und dazu habe ich gerade einen Link gefunden:
Koppel, Schler & Zigdon Determining an author's native language by mining a text for errors (KDD2005)
(Link für Leute ohne ACM-Zugang)

(mehr davon bei Google Scholar)
Kommentare (0) | Trackbacks (0)

Links (papers) of the day

Geschrieben von florian in english, studies um 11:58
Intelligent email clients:

Dredze et. al.: Feature Design for Transfer Learning
(learning to recognize mails that need a reply)


Neustaedter et.al.: The Social Network and Relationship Finder:
Social Sorting for Email Triage


Boone: Concept Features in Re:Agent, an Intelligent Email Agent

(there's a lot more, these are just the ones I stumbled upon.)

I wonder why machine learning features don't play any role in real-world email clients apart from spam classification.
Kommentare (0) | Trackbacks (0)

Dienstag, 15. Mai 2007

Links of the day

Geschrieben von florian in english, studies um 22:40
Fernando Pereira: "Zellig Harris, natural language processing, and search"
(about the differences between general language and technical languages and their implications for NLP)

Bill Softky: "How Google translates without understanding"
(elReg article about Google's effort in Statistical Machine Translation)
Kommentare (0) | Trackbacks (0)

Donnerstag, 15. März 2007

The Theory of the Wall Street Journal

Geschrieben von florian in english, studies um 23:55
"Computational linguistics in the lat 20 years essentially has been the Theory of the Wall Street Journal"
Ron Kaplan (CTO Powerset), in a talk at IMS Stuttgart this afternoon.

"The Theory of the Wall Street Journal" vollständig lesen

Kommentare (2) | Trackbacks (0)

Dienstag, 13. Februar 2007

Fernando Pereira bloggt

Geschrieben von florian in studies um 23:22
Gerade via Alias-I entdeckt:
Fernando Pereira, ein renommierter Forscher auf dem Gebiet von Computerlinguistik und Maschinellen Lernen an der University of Pennsylvania hat auch ein sehr lesenswertes Blog.
Kommentare (0) | Trackbacks (0)

Mittwoch, 22. November 2006

UIMA integration for the Stanford Named Entity Recognizer

Geschrieben von florian in computing, english, studies um 16:11
The Stanford NLP Group released a Named Entity Recognition software, based on Conditional Random Fields and implemented in Java.

It is pretty fast and also acheives quite good performance with the included models.

For integration into IBM's UIMA text analysis frameword, I have written an Analysis Engine component that wraps the Stanford NE Regonizer.
You can download it here: stanford-ner-uima.zip
Just like the Recognizer itself it is licensed under the GPL.

Please let me know if it is useful for you.
Kommentare (0) | Trackbacks (0)
Tags für diesen Artikel: ner, stanford, uima
Tags für diesen Artikel: ner, stanford, uima

Dienstag, 7. November 2006

Schneefräsen-Algorithmus

Geschrieben von florian in german, studies um 10:38
Noch schneit es nicht, aber man kann diesen Algorithmus auch auf Laubgebläse anwenden: Ein Algorithmus, wie man effizient eine Fläche mit einer Schneefräse vom Schnee befreit. Mit lustigen Folien.

(via the Geomblog)
Kommentar (1) | Trackbacks (0)

Samstag, 28. Oktober 2006

Auch Sprachsynthese braucht professionelle Sprecher

Geschrieben von florian in german, studies um 18:44
Stephen Potter berichtet über einen Artikel, in dem über eine Firma berichtet wird, die professionelle Sprecher für Sprachcomputer vermittelt, so daß auch die eines Sprachcomputersystems das gewünschte Image vermittelt.

Das sind "klassische" Sprachcomputer-Systeme, in denen die Sprachausgaben als ganze Sätze vorliegen ("Canned Speech" Systeme), und in dem Artikel wird auch die Frage aufgeworfen, ob professionelle Sprecher bei einem Fortschreiten der Sprachsynthese-Technologie (Text-to-Speech, TTS) überflüssig werden.

Ich denke, das wird so schnell nicht passieren, da gängige Text-to-Speech-Systeme ihre Äusserungen aus kleinen Stückchen (von einzelnen Lauten bis ganzen Wörtern) von Sprachaufnahmen menschlicher Sprecher zusammengesetzen (Unit-Selection-Synthese). Die Stückchen werden natürlich angepasst und digital gefiltert und bearbeitet, dass man keine Knackser hört und auch die Intonation von Wörtern und Sätzen stimmt, aber das Grundmaterial ist Sprache von richtigen Menschen.

Deswegen brauchen auch die Entwickler von Text-to-Speech-Systemen professionelle Sprecher für ihre Bausteine. Ich denke auch, dass man die Stimme des Sprechers auch wiedererkennen kann, so dass die Eigenschaften einer Stimme, die für ein Image relevant sind, auch in einem TTS-Systemen durch die Auswahl des Sprechers kommen.

Vollsynthetische Sprache hört sich immer noch katastrophal an, und weil die Forschung sich auf die oben beschriebene konkatenative Synthese konzentriert, wird das auch noch sehr lange so bleiben.

Deshalb braucht man auch dann, wenn sich Sprachsynthese für Sprachanwendungen durchsetzt, immer noch professionelle Sprecher.

Kommentare (0) | Trackbacks (0)
Tags für diesen Artikel: speech
Tags für diesen Artikel: speech

Dienstag, 26. September 2006

Information Food Chain

Geschrieben von florian in english, studies um 11:30
Etzioni (1996!): "I view the World Wide Web as an information food chain. The maze of pages and hyperlinks that comprise the Web are at the very bottom of the chain. The WebCrawlers and Alta Vistas of the world are information herbivores; they graze on Web pages and regurgitate them as searchable indices. Today, most Web users feed near the bottom of the information food chain, but the time is ripe to move up. Since 1991, we have been building information carnivores, which intelligently hunt and feast in Unix, on the Internet, and on the Web".

Nice metaphor.
(Save for the "bots" and "agents" rhethoric that follows.)

Etzioni is building "information omnivores" now.
Kommentare (0) | Trackbacks (0)

Dienstag, 15. August 2006

So called "language-independent"

Geschrieben von florian in english, studies um 14:31
Is it just me or does the term "language-independent" (Named Entity Recognition, oder whatever) seem a bit pompus? When in fact all papers I've seen on the subject instead suggest ways to train multiple single-language classifiers - provided that you've got corpora for all languages and even genres.
Kommentare (0) | Trackbacks (0)
Tags für diesen Artikel: ner
Tags für diesen Artikel: ner

Mittwoch, 28. Juni 2006

Gestatten: Erkan

Geschrieben von florian in german, studies um 00:10
Die Firma ATIP baut das Sprachsynthesesystem Proser. Und dem hat sie auch eine deutsche Stimmt mit türkischem Akzent spendiert: "Erkan". Es gibt eine Web-Demo, und die Synthesequalität ist gar nicht mal schlecht.

(Gefunden über eine Seite mit einer Übersicht deutschprachiger Sprachsynthesesysteme)
Kommentar (1) | Trackbacks (0)

Mittwoch, 21. Juni 2006

Jetzt gehts loohoos!

Geschrieben von florian in german, studies um 16:49
Nicht nur mit Fußball, wo "wir" natürlich Weltmeister werden, aber das hat ja schon begonnen, sondern auch mit der letzten Phase meines Studiums.
Letzte Woche habe ich meine letzte Prüfung abgelegt, und gestern ist der Startschuss für meine Diplomarbeit gefallen. Es wird um Named Entity Recognition, also die Erkennung von Eigennamen in natürlichsprachigen Texten gehen, und das ganze soll in UIMA, einem Framework von IBM für Information Extraction implementiert werden.
Kommentare (0) | Trackbacks (0)

Sonntag, 9. April 2006

Clustering Musings #2

Geschrieben von florian in english, studies um 14:23
"The matter of knowing when to stop in hierarchical agglomerativ clustering has been explored, but not resolved."[1]

That sums up my current problems pretty well.

[1] D. Beeferman , A. Berger: "Agglomerative clustering of a search engine query log". Proc. of the 6th ACM SIGKDD conference, 2000
Kommentare (0) | Trackbacks (0)
Tags für diesen Artikel: clustering
Tags für diesen Artikel: clustering
(Seite 1 von 1, insgesamt 14 Einträge)
 
Powered by Serendipity | Template by Perun