hvordan man fortolker middelværdien af Silhuetplot?

Sergeys svar indeholder det kritiske punkt, som er, at silhuetkoefficienten kvantificerer kvaliteten af clustering opnået-så du bør vælge antallet af klynger, der maksimerer silhuetkoefficienten.

det lange svar er, at den bedste måde at evaluere resultaterne af din klyngeindsats er at starte med faktisk at undersøge-menneskelig inspektion-de dannede klynger og foretage en bestemmelse baseret på en forståelse af, hvad dataene repræsenterer, hvad en klynge repræsenterer, og hvad klyngningen er beregnet til at opnå.

der er adskillige kvantitative metoder til evaluering af klyngeresultater, som skal bruges som værktøjer med fuld forståelse af begrænsningerne. De har tendens til at være ret intuitive og har således en naturlig appel (som klyngeproblemer generelt).

eksempler: klyngemasse / radius / densitet, samhørighed eller adskillelse mellem klynger osv. Disse begreber kombineres ofte, for eksempel bør forholdet mellem adskillelse og samhørighed være stort, hvis klyngedannelse var vellykket.

den måde, klyngedannelse måles på, informeres af den anvendte type klyngealgoritmer. For eksempel kan målekvaliteten af en komplet klyngealgoritme (hvor alle punkter sættes i klynger) være meget forskellig fra målekvaliteten af en tærskelbaseret uklar klyngealgoritme (hvor et eller andet punkt muligvis ikke er grupperet som ‘støj’).

silhuetkoefficienten er en sådan foranstaltning. Det fungerer som følger:

for hvert punkt p skal du først finde den gennemsnitlige afstand mellem p og alle andre punkter i den samme klynge (dette er et mål for samhørighed, kald det A). Find derefter den gennemsnitlige afstand mellem p og alle punkter i den nærmeste klynge (dette er et mål for adskillelse fra den nærmeste anden klynge, kald det B). Silhuetkoefficienten for p er defineret som forskellen mellem B og A divideret med den største af de to (maks(A,B)).

vi vurderer klyngekoefficienten for hvert punkt, og ud fra dette kan vi opnå den ‘samlede’ gennemsnitlige klyngekoefficient.

intuitivt forsøger vi at måle rummet mellem klynger. Hvis klyngesamhørighed er god (A er lille) og klyngeseparation er god (B er stor), vil tælleren være stor osv.

jeg har konstrueret et eksempel her for at demonstrere dette Grafisk.

Clustering koefficient resultater af clustering for nclusters = 2:5

i disse plot er de samme data afbildet fem gange; farverne angiver klyngerne skabt af k-betyder klyngedannelse med k = 1,2,3,4,5. Det vil sige, Jeg har tvunget en klyngealgoritme til at opdele dataene i 2 klynger, derefter 3 osv.

silhuetplottet viser, at silhuetkoefficienten var højest, når k = 3, hvilket tyder på, at det er det optimale antal klynger. I dette eksempel er vi heldige at kunne visualisere dataene, og vi er måske enige om, at tre klynger bedst fanger segmenteringen af dette datasæt.

hvis vi ikke var i stand til at visualisere dataene, måske på grund af højere dimensionalitet, ville et silhuetplot stadig give os et forslag. Jeg håber dog, at mit noget langvarige svar her også gør opmærksom på, at dette “forslag” kunne være meget utilstrækkeligt eller bare forkert i visse scenarier.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.