Wie interpretiere ich den Mittelwert des Silhouettendiagramms?

Sergeys Antwort enthält den kritischen Punkt, nämlich dass der Silhouette-Koeffizient die Qualität des erzielten Clusters quantifiziert – daher sollten Sie die Anzahl der Cluster auswählen, die den Silhouette-Koeffizienten maximiert.

Die lange Antwort ist, dass der beste Weg, die Ergebnisse Ihrer Clustering-Bemühungen zu bewerten, darin besteht, die gebildeten Cluster tatsächlich zu untersuchen – menschliche Inspektion – und eine Bestimmung zu treffen, die auf einem Verständnis dessen basiert, was die Daten darstellen, was ein Cluster darstellt und was das Clustering erreichen soll.

Es gibt zahlreiche quantitative Methoden zur Bewertung von Clusterergebnissen, die als Werkzeuge verwendet werden sollten, wobei die Einschränkungen vollständig zu verstehen sind. Sie sind in der Regel ziemlich intuitiv und haben daher einen natürlichen Reiz (wie Clusterprobleme im Allgemeinen).

Beispiele: Clustermasse / Radius / Dichte, Kohäsion oder Trennung zwischen Clustern usw. Diese Konzepte werden oft kombiniert, zum Beispiel sollte das Verhältnis von Trennung zu Kohäsion groß sein, wenn Clustering erfolgreich war.

Die Art und Weise, wie Clustering gemessen wird, hängt von der Art der verwendeten Clusteralgorithmen ab. Zum Beispiel kann die Messung der Qualität eines vollständigen Clusteralgorithmus (in dem alle Punkte in Cluster eingefügt werden) sehr unterschiedlich sein von der Messung der Qualität eines schwellenwertbasierten Fuzzy-Clusteralgorithmus (in dem ein Punkt möglicherweise als ‚Rauschen‘ nicht gruppiert bleibt).

Der Silhouette-Koeffizient ist ein solches Maß. Es funktioniert wie folgt:

Ermitteln Sie für jeden Punkt p zuerst den durchschnittlichen Abstand zwischen p und allen anderen Punkten im selben Cluster (dies ist ein Maß für die Kohäsion, nennen Sie es A). Ermitteln Sie dann den durchschnittlichen Abstand zwischen p und allen Punkten im nächsten Cluster (dies ist ein Maß für die Trennung vom nächsten anderen Cluster, nennen Sie ihn B). Der Scherenschnittkoeffizient für p ist definiert als die Differenz zwischen B und A dividiert durch den größeren der beiden (max (A, B)).

Wir bewerten den Clusterkoeffizienten jedes Punktes und daraus können wir den durchschnittlichen Clusterkoeffizienten insgesamt erhalten.

Intuitiv versuchen wir, den Raum zwischen Clustern zu messen. Wenn der Clusterzusammenhalt gut ist (A ist klein) und die Clustertrennung gut ist (B ist groß), ist der Zähler groß usw.

Ich habe hier ein Beispiel erstellt, um dies grafisch zu demonstrieren.

Clustering-KoeffizientErgebnisse des Clusters für Ncluster = 2:5

In diesen Diagrammen werden die gleichen Daten fünfmal dargestellt; Die Farben zeigen die Cluster an, die durch k-Means-Clustering mit k = 1,2,3,4,5 erstellt wurden. Das heißt, ich habe einen Clustering-Algorithmus gezwungen, die Daten in 2 Cluster, dann 3 usw. aufzuteilen und das Diagramm entsprechend einzufärben.

Das Silhouette-Diagramm zeigt, dass der Silhouette-Koeffizient am höchsten war, wenn k = 3 , was darauf hindeutet, dass dies die optimale Anzahl von Clustern ist. In diesem Beispiel haben wir das Glück, die Daten visualisieren zu können, und wir sind uns einig, dass drei Cluster die Segmentierung dieses Datensatzes am besten erfassen.

Wenn wir die Daten nicht visualisieren könnten, vielleicht wegen der höheren Dimensionalität, würde uns ein Silhouette-Plot immer noch einen Vorschlag machen. Ich hoffe jedoch, dass meine etwas langatmige Antwort hier auch darauf hinweist, dass dieser „Vorschlag“ in bestimmten Szenarien sehr unzureichend oder einfach falsch sein könnte.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.