cum să interpreteze medie de complot silueta?

răspunsul lui Sergey conține punctul critic, și anume că coeficientul siluetei cuantifică calitatea clusterelor obținute-deci ar trebui să selectați numărul de clustere care maximizează coeficientul siluetei.

răspunsul lung este că cel mai bun mod de a evalua rezultatele eforturilor voastre de grupare este să începeți prin a examina efectiv — inspecția umană — clusterele formate și a face o determinare bazată pe o înțelegere a ceea ce reprezintă Datele, ce reprezintă un cluster și ce intenționează să realizeze gruparea.

există numeroase metode cantitative de evaluare a rezultatelor de grupare care ar trebui utilizate ca instrumente, cu o înțelegere deplină a limitărilor. Ele tind să fie destul de intuitive în natură și, prin urmare, au un apel natural (cum ar fi problemele de grupare în general).

Exemple: masa / raza / densitatea clusterului, coeziunea sau separarea între clustere etc. Aceste concepte sunt adesea combinate, de exemplu, raportul dintre separare și coeziune ar trebui să fie mare dacă gruparea a avut succes.

modul în care se măsoară gruparea este informat de tipul algoritmilor de grupare utilizați. De exemplu, măsurarea calității unui algoritm complet de grupare (în care toate punctele sunt puse în clustere) poate fi foarte diferită de măsurarea calității unui algoritm de grupare fuzzy bazat pe prag (în care un anumit punct ar putea fi lăsat ne-grupat ca ‘zgomot’).

coeficientul de siluetă este o astfel de măsură. Funcționează după cum urmează:

pentru fiecare punct p, găsiți mai întâi distanța medie dintre p și toate celelalte puncte din același cluster (aceasta este o măsură a coeziunii, numiți-o A). Apoi găsiți distanța medie dintre p și toate punctele din cel mai apropiat cluster (aceasta este o măsură de separare de cel mai apropiat alt cluster, numiți-l B). Coeficientul de siluetă pentru p este definit ca diferența dintre B și a împărțită la cea mai mare dintre cele două (max(A,B)).

evaluăm coeficientul de cluster al fiecărui punct și de aici putem obține coeficientul de cluster mediu global.

intuitiv, încercăm să măsurăm spațiul dintre clustere. Dacă coeziunea clusterului este bună (A este mică) și separarea clusterului este bună (B este mare), numărătorul va fi mare etc.

am construit un exemplu aici pentru a demonstra acest lucru Grafic.

Coeficient de grupare rezultatele grupării pentru nclusters = 2:5

în aceste parcele aceleași date sunt reprezentate grafic de cinci ori; culorile indică clusterele create de K-înseamnă clustering, cu k = 1,2,3,4,5. Adică, am forțat un algoritm de grupare să împartă datele în 2 clustere, apoi 3 și așa mai departe și am colorat graficul în consecință.

graficul siluetei arată că coeficientul siluetei a fost cel mai mare atunci când k = 3, sugerând că acesta este numărul optim de clustere. În acest exemplu, suntem norocoși să putem vizualiza datele și am putea fi de acord că, într-adevăr, trei clustere captează cel mai bine segmentarea acestui set de date.

dacă nu am putea vizualiza datele, probabil din cauza dimensionalității mai mari, un complot siluetă ne-ar da încă o sugestie. Cu toate acestea, sper că răspunsul meu oarecum lung aici face, de asemenea, punctul că această „sugestie” ar putea fi foarte insuficientă sau pur și simplu greșită în anumite scenarii.

Lasă un răspuns

Adresa ta de email nu va fi publicată.