hvordan tolke gjennomsnitt Av Silhouette plot?

Sergeys svar inneholder det kritiske punktet, som er at silhouettekoeffisienten kvantifiserer kvaliteten på clustering oppnådd – så du bør velge antall klynger som maksimerer silhouettekoeffisienten.

det lange svaret er at den beste måten å evaluere resultatene av din clustering innsats er å starte med å faktisk undersøke-menneskelig inspeksjon – klyngene dannet og gjøre en beslutning basert på en forståelse av hva dataene representerer, hva en klynge representerer, og hva clustering er ment å oppnå.

det er mange kvantitative metoder for å evaluere clustering resultater som bør brukes som verktøy, med full forståelse av begrensningene. De pleier å være ganske intuitive i naturen, og har dermed en naturlig appell (som clustering problemer generelt).

Eksempler: klynge masse / radius / tetthet, kohesjon eller separasjon mellom klynger, etc. Disse konseptene kombineres ofte, for eksempel bør forholdet mellom separasjon og kohesjon være stort hvis clustering var vellykket.

måten clustering måles er informert av typen clustering algoritmer som brukes. For eksempel kan måling av kvaliteten på en komplett klyngealgoritme (der alle punkter er satt i klynger) være svært forskjellig fra måling av kvaliteten på en terskelbasert fuzzy klyngealgoritme (der et punkt kan stå un-gruppert som ‘støy’).

silhuettkoeffisienten er et slikt tiltak. Det fungerer som følger:

for hvert punkt p finner du først gjennomsnittsavstanden mellom p og alle andre punkter i samme klynge (dette er et mål for kohesjon, kaller Det A). Finn deretter gjennomsnittlig avstand mellom p og alle punkter i nærmeste klynge (dette er et mål for separasjon fra nærmeste andre klynge, kaller Det B). Silhuettkoeffisienten for p er definert som forskjellen Mellom B og a dividert med den største av de to(maks (a, B)).

vi evaluerer klyngekoeffisienten for hvert punkt, og fra dette kan vi få den totale gjennomsnittlige klyngekoeffisienten.

Intuitivt prøver Vi å måle mellomrommet mellom klynger. Hvis klyngesammenheng er god (a er liten) og klyngeseparasjon er god (B er stor), vil telleren være stor, etc.

jeg har konstruert et eksempel her for å demonstrere dette grafisk.

 Clustering koeffisient  Resultater av clustering for nclusters = 2:5

i disse plottene blir de samme dataene plottet fem ganger; fargene indikerer klyngene opprettet av k-means clustering, med k = 1,2,3,4,5. Det vil si, jeg har tvunget en clustering algoritme for å dele dataene i 2 klynger, deretter 3, og så videre, og farget grafen tilsvarende.

silhuettplottet viser at silhuettkoeffisienten var høyest når k = 3, noe som tyder på at det er det optimale antall klynger. I dette eksemplet er vi heldige å kunne visualisere dataene, og vi kan være enige om at tre klynger best fanger segmenteringen av dette datasettet.

hvis vi ikke kunne visualisere dataene, kanskje på grunn av høyere dimensjonalitet, ville et silhuettplott fortsatt gi oss et forslag. Men jeg håper at mitt noe langvarige svar her også gjør at dette «forslaget» kan være svært utilstrekkelig eller bare feil i visse scenarier.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.