hur man tolkar medelvärdet av Silhouette plot?

Sergeys svar innehåller den kritiska punkten, vilket är att siluettkoefficienten kvantifierar kvaliteten på kluster som uppnåtts-så du bör välja antalet kluster som maximerar siluettkoefficienten.

det långa svaret är att det bästa sättet att utvärdera resultaten av dina klusterinsatser är att börja med att faktiskt undersöka-mänsklig inspektion-de kluster som bildas och göra en bestämning baserad på en förståelse för vad data representerar, vad ett kluster representerar och vad klustringen är avsedd att uppnå.

det finns många kvantitativa metoder för att utvärdera klusterresultat som bör användas som verktyg, med full förståelse för begränsningarna. De tenderar att vara ganska intuitiva i naturen och har därmed en naturlig överklagande (som klusterproblem i allmänhet).

exempel: klustermassa / radie / densitet, sammanhållning eller separation mellan kluster etc. Dessa begrepp kombineras ofta, till exempel bör förhållandet mellan separation och sammanhållning vara stort om kluster lyckades.

hur klustring mäts informeras av vilken typ av klustringsalgoritmer som används. Till exempel kan mätning av kvaliteten på en komplett klusteralgoritm (där alla punkter sätts i kluster) skilja sig mycket från att mäta kvaliteten på en tröskelbaserad fuzzy klusteralgoritm (där någon punkt kan lämnas oklusterad som ’buller’).

siluettkoefficienten är en sådan åtgärd. Det fungerar enligt följande:

för varje punkt P, hitta först det genomsnittliga avståndet mellan p och alla andra punkter i samma kluster (detta är ett mått på sammanhållning, kalla det A). Hitta sedan det genomsnittliga avståndet mellan p och alla punkter i närmaste kluster (detta är ett mått på separation från närmaste andra kluster, kalla det B). Siluettkoefficienten för p definieras som skillnaden mellan B och A dividerat med den större av de två (max(A,B)).

vi utvärderar klusterkoefficienten för varje punkt och från detta kan vi få den ’övergripande’ genomsnittliga klusterkoefficienten.

intuitivt försöker vi mäta utrymmet mellan kluster. Om klustersammanhållningen är bra (A är liten) och klusterseparation är bra (B är stor) kommer täljaren att vara stor etc.

jag har konstruerat ett exempel här för att visa detta grafiskt.

Klusterkoefficient resultat av klustring för nkluster = 2:5

i dessa tomter plottas samma data fem gånger; färgerna indikerar kluster som skapats av k-betyder kluster, med k = 1,2,3,4,5. Det vill säga, Jag har tvingat en klusteralgoritm att dela upp data i 2 kluster, sedan 3, och så vidare, och färgade grafen i enlighet därmed.

silhuettplotten visar att silhuettkoefficienten var högst när k = 3, vilket tyder på att det är det optimala antalet kluster. I det här exemplet har vi tur att kunna visualisera data och vi kan komma överens om att tre kluster bäst fångar segmenteringen av denna datamängd.

om vi inte kunde visualisera data, kanske på grund av högre dimensionalitet, skulle en siluettplott fortfarande ge oss ett förslag. Men jag hoppas att mitt något långvariga svar här också gör att detta” förslag ” kan vara mycket otillräckligt eller helt enkelt fel i vissa scenarier.

Lämna ett svar

Din e-postadress kommer inte publiceras.