jak interpretovat průměr siluety?

Sergejova odpověď obsahuje kritický bod, kterým je, že koeficient siluety kvantifikuje dosaženou kvalitu shlukování-takže byste měli vybrat počet shluků, který maximalizuje koeficient siluety.

dlouhá odpověď je, že nejlepší způsob, jak vyhodnotit výsledky vašeho úsilí o shlukování, je začít tím, že skutečně prozkoumáte-lidskou inspekci-vytvořené shluky a určíte na základě pochopení toho, co data představují, co cluster představuje a čeho má cluster dosáhnout.

existuje mnoho kvantitativních metod hodnocení výsledků shlukování, které by měly být použity jako nástroje, s plným pochopením omezení. Mají tendenci být poměrně intuitivní V přírodě, a proto mají přirozenou přitažlivost (jako shlukování problémy obecně).

příklady: hmotnost / poloměr / hustota shluků, soudržnost nebo oddělení mezi shluky atd. Tyto pojmy jsou často kombinovány, například poměr oddělení k soudržnosti by měl být velký, pokud by shlukování bylo úspěšné.

způsob měření shlukování je informován typem použitých shlukovacích algoritmů. Například měření kvality kompletního shlukovacího algoritmu (ve kterém jsou všechny body zařazeny do shluků) se může velmi lišit od měření kvality fuzzy shlukovacího algoritmu založeného na prahu (ve kterém může být nějaký bod ponechán bez shluků jako „šum“).

koeficient siluety je jedním takovým měřítkem. Funguje to takto:

pro každý bod p nejprve najděte průměrnou vzdálenost mezi p a všemi ostatními body ve stejném clusteru (toto je míra soudržnosti, nazývejte ji A). Poté najděte průměrnou vzdálenost mezi p a všemi body v nejbližším clusteru(jedná se o míru oddělení od nejbližšího jiného clusteru, nazývejte jej B). Koeficient siluety pro p je definován jako rozdíl mezi B A a dělený větším ze dvou (max(a,B)).

vyhodnocujeme koeficient shluku každého bodu A Z toho můžeme získat „celkový“ průměrný koeficient shluku.

intuitivně se snažíme měřit prostor mezi klastry. Pokud je soudržnost clusteru dobrá (a je malá) a oddělení clusteru je dobré (B je velké), čitatel bude velký atd.

zde jsem vytvořil příklad, abych to graficky demonstroval.

 koeficient shlukování výsledky shlukování pro nclustery = 2:5

na těchto grafech jsou stejná data vykreslena pětkrát; barvy označují shluky vytvořené shlukováním k-znamená, že k = 1,2,3,4,5. To znamená, že jsem přinutil shlukovací algoritmus, aby rozdělil data na 2 shluky, pak 3 atd., a podle toho obarvil graf.

graf siluety ukazuje, že koeficient siluety byl nejvyšší, když k = 3, což naznačuje, že je to optimální počet shluků. V tomto příkladu máme štěstí, že jsme schopni vizualizovat data a můžeme se shodnout, že tři klastry nejlépe zachytí segmentaci této datové sady.

pokud bychom nebyli schopni vizualizovat data, možná kvůli vyšší dimenzi, silhouette plot by nám stále dal návrh. Doufám však, že moje poněkud zdlouhavá odpověď zde také poukazuje na to, že tento „návrh“ by mohl být v určitých scénářích velmi nedostatečný nebo prostě špatný.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.