Websuche mit Clustering

 |

flawed concepts

Suche

Archive

Juli 2010
Juni 2010
Mai 2010
Das Neueste ...
Älteres ...

Kommentare

ixs zu Security Advice Is Wrong
Mo, 05.04.2010 11:17
Naja... Irgendwie bin ich n icht überrascht dass Microsoft Research rausbekommt dass IT- Sicherheit eigentlich to [...]


florian zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 22:47
Eigentlich nicht. Ausser dass die ganzen me-too-Trackbacks inzwischen auf Twitter stattfi nden (ausser hier). Da [...]


Onlineproxy zu Die Interessantheit von Trackbacks
Mo, 29.03.2010 09:06
hat sich deine meinung zu trac kbacks geändert in letzter zei t?


florian zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 22:33
Aber es hätte auch sein Gutes: Eine Plattform weniger für e klige Linkspammer.


Jan zu Hallo 2009, tschüss Blog
Mi, 21.01.2009 15:39
Ja manchmal hat man im Leben e infach so viele Sachen, denen man sich widmen möchte oder au ch muss, dass da gewisse [...]


Dirk zu Call A Bike
Mo, 10.11.2008 14:17
Ich leihe mir ungern eine Fahr rad fahre lieber nur mein eige nes. Hatte mal ein negatives E rlebenis mit einen Leihr [...]


Azundris zu
Fr, 25.07.2008 01:50
Schaust Du Wikipedia. «The first version of SQL was devel oped at IBM by Donald D. Chamb erlin and Raymond F. Boy [...]


Tags

acl05 auto bahn blogs cl clustering fun gemaule hardware java klassik krol linguistics metal musik ner new york city niagaracmt oboe php reisen remember twilight saxophon search semantics server sjbo solaris sun t1 uima

Kategorien

  • XML computing
  • XML english
  • XML german
  • XML life
  • XML meta
  • XML misc
  • XML music
  • XML studies


Alle Kategorien

Blog abonnieren

XML RSS 0.91 feed
XML RSS 1.0 feed
XML RSS 2.0 feed
ATOM/XML ATOM 0.3 feed
ATOM/XML ATOM 1.0 feed
XML RSS 2.0 Kommentare

Verwaltung des Blogs

Login

Powered by

Serendipity PHP Weblog

Dienstag, 4. Oktober 2005

Websuche mit Clustering

Geschrieben von florian um 15:44
Gerade war ich ein bisschen im Web auf der Suche nach Ideen zum Clustering von Datensätzen, da ist mir EigenCluster über den Weg gelaufen: eine Websuche, die als Demonstration eines Clustering-Verfahrens ihre Ergebnisse automatisch in thematisch passenden Gruppen präsentiert.

Hintergrund:
Unter Clustering oder Clusteranalyse versteht man verfahren, die aus eine Menge von Datensätzen automatisch so in Gruppen ("Cluster") einteilt, dass die Datensätze innerhalb einer Gruppe sich möglichst ähnlich sind, die Gruppen sich untereinander dagegen möglichst stark unterscheiden.
Dazu gibt es zahlreiche Verfahren, die z.B. in dem Wikipedia-Artikel auch kurz beschrieben werden. Die meisten dieser Verfahren benötigen ein Ähnlichkeits- oder Abstandmaß, mit dem beschrieben werden kann, wie ähnlich sich zwei Datensätze sind.
Und da ist jetzt mein Problem. Meine Datensätze haben Felder mit diskreten Werten, z.B. grammatische Kasus. Da kann ich zwar auf Gleichheit/Ungleichheit vergleichen, aber keine Größer-/Kleiner-Relation angeben: Was ist weiter entfernt von einem Nominativ, der Akkusativ oder doch eher der Dativ?

Ich werde es jetzt erstmal mit dem Hamming-Abstand versuchen. Ein paar Felder sind allerdings mengenwertig oder gar Strings, aber ich hoffe, dass ich ich trotzdem mit dem Hamming-Abstand auskomme nicht nicht auf schlimmere Metriken zurückgreifen und die dann mit dem Rest zu einem übergeordneten Abstandsmaß verwursteln muss.
Kommentare (0) | Trackback (1)
Tags für diesen Artikel: clustering, search
Artikel mit ähnlichen Themen:
Clustering Musings #2
Clustering Musings #1: dNumber as seed?
Noch eine Suchmaschine mit Clustering
Tags für diesen Artikel: clustering, search
Artikel mit ähnlichen Themen:
Clustering Musings #2
Clustering Musings #1: dNumber as seed?
Noch eine Suchmaschine mit Clustering

Trackbacks
Trackback für spezifische URI dieses Eintrags

Noch eine Suchmaschine mit Clustering
ich hatte ja neulich mal EigenCluster erwähnt, eine Websuche, die die Suchergenisse automatisch in Themengebiete einteilt ("clustert"). Während EigenCluster aber mehr ein Proof-of-Concept für den Clustering-Algorithmus der Autoren ist, ist Clusty deutlich
Weblog: flawed concepts
Aufgenommen: Dez 25, 12:05

Kommentare
Ansicht der Kommentare: (Linear | Verschachtelt)

Noch keine Kommentare

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA

 
 
 
Powered by Serendipity | Template by Perun