hoe interpreteer je het gemiddelde van het silhouetbeeld?

Sergey ‘ s antwoord bevat het kritische punt, dat is dat de silhouetcoëfficiënt de bereikte kwaliteit van clustering kwantificeert-dus je moet het aantal clusters selecteren dat de silhouetcoëfficiënt maximaliseert.

het lange antwoord is dat de beste manier om de resultaten van uw clustering inspanningen te evalueren is om te beginnen met het daadwerkelijk onderzoeken — menselijke inspectie — de clusters gevormd en het maken van een vaststelling op basis van een begrip van wat de gegevens vertegenwoordigen, wat een cluster vertegenwoordigt, en wat de clustering is bedoeld om te bereiken.

er zijn tal van kwantitatieve methoden voor de evaluatie van clusteringsresultaten die als instrumenten moeten worden gebruikt, met volledige kennis van de beperkingen. Ze hebben de neiging om vrij intuïtief van aard te zijn, en hebben dus een natuurlijke aantrekkingskracht (zoals clustering problemen in het algemeen).

voorbeelden: clustermassa / straal / dichtheid, samenhang of scheiding tussen clusters, enz. Deze concepten worden vaak gecombineerd, bijvoorbeeld, de verhouding tussen scheiding en cohesie zou groot moeten zijn als clustering succesvol was.

de manier waarop clustering wordt gemeten, wordt bepaald door het type clustering-algoritmen dat wordt gebruikt. Het meten van de kwaliteit van een compleet clustering algoritme (waarin alle punten in clusters worden gezet) kan bijvoorbeeld heel anders zijn dan het meten van de kwaliteit van een threshold-based fuzzy clustering algoritme (waarin een punt niet geclusterd kan worden als ‘ruis’).

de silhouetcoëfficiënt is zo ‘ n maatstaf. Het werkt als volgt:

voor elk punt p, zoek eerst de gemiddelde afstand tussen p en alle andere punten in dezelfde cluster (dit is een maat voor cohesie, noem het A). Zoek dan de gemiddelde afstand tussen p en alle punten in de dichtstbijzijnde cluster (dit is een maat voor scheiding van de dichtstbijzijnde andere cluster, noem het B). De silhouetcoëfficiënt voor p wordt gedefinieerd als het verschil tussen B en A gedeeld door de grootste van de twee (max(A,B)).

we evalueren de clustercoëfficiënt van elk punt en hieruit kunnen we de ’totale’ gemiddelde clustercoëfficiënt verkrijgen.

intuïtief proberen we de ruimte tussen clusters te meten. Als clustercohesie goed is (a is klein) en clusterscheiding goed is (B is groot), zal de teller groot zijn, enz.

ik heb hier een voorbeeld gemaakt om dit grafisch aan te tonen.

Clusteringscoëfficiënt resultaten van clustering voor nclusters = 2:5

In deze plots worden dezelfde gegevens vijf keer uitgezet; de kleuren geven de clusters aan die zijn gecreëerd door K-betekent clustering, met k = 1,2,3,4,5. Dat wil zeggen, Ik heb een clustering algoritme gedwongen om de gegevens te verdelen in 2 clusters, dan 3, enzovoort, en de grafiek dienovereenkomstig gekleurd.

de silhouetdiagram toont dat de silhouetcoëfficiënt het hoogst was wanneer k = 3, wat suggereert dat dit het optimale aantal clusters is. In dit voorbeeld hebben we het geluk dat we de gegevens kunnen visualiseren en we kunnen het erover eens zijn dat inderdaad drie clusters de segmentatie van deze dataset het beste vastleggen.

als we de gegevens niet konden visualiseren, misschien vanwege de hogere dimensionaliteit, zou een silhouetplot ons nog steeds een suggestie geven. Ik hoop echter dat mijn wat langdradige antwoord hier ook het punt maakt dat deze” suggestie “in bepaalde scenario’ s zeer ontoereikend of gewoon verkeerd zou kunnen zijn.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.