jak interpretować średnią wykresu sylwetki?

odpowiedź Sergeya zawiera punkt krytyczny, który polega na tym, że współczynnik sylwetki określa jakość osiągniętych klastrów . dlatego należy wybrać liczbę klastrów, która maksymalizuje współczynnik sylwetki.

długa odpowiedź jest taka, że najlepszym sposobem na ocenę wyników Twoich wysiłków klastrowych jest rozpoczęcie od faktycznego zbadania-ludzkiej kontroli-utworzonych klastrów i dokonania determinacji opartej na zrozumieniu tego, co oznaczają dane, co reprezentuje klaster i co ma on osiągnąć.

istnieje wiele metod ilościowych oceny wyników klastrowania, które powinny być stosowane jako narzędzia, z pełnym zrozumieniem ograniczeń. Mają one zwykle charakter dość intuicyjny, a tym samym mają naturalny urok (jak problemy z grupowaniem w ogóle).

przykłady: masa klastra / promień / gęstość, spójność lub separacja między klastrami itp. Pojęcia te są często łączone, na przykład stosunek separacji do spójności powinien być duży, jeśli klastrowanie zakończyło się sukcesem.

sposób pomiaru klastrowania zależy od rodzaju używanych algorytmów klastrowania. Na przykład pomiar jakości kompletnego algorytmu klastrowania (w którym wszystkie punkty są umieszczane w klastrach) może być bardzo różny od pomiaru jakości opartego na progach algorytmu klastrowania rozmytego (w którym pewien punkt może zostać pozostawiony bez klastrowania jako „szum”).

współczynnik sylwetki jest jednym z takich miar. Działa to w następujący sposób:

dla każdego punktu p, najpierw znajdź średnią odległość między p a wszystkimi innymi punktami w tym samym gromadzie (jest to miara spójności, nazwij ją A). Następnie znajdź średnią odległość między p a wszystkimi punktami najbliższego klastra (jest to miara oddzielenia od najbliższego innego klastra, nazwij go B). Współczynnik sylwetki dla p definiuje się jako różnicę między B I A podzieloną przez większą z dwóch (max(A,B)).

oceniamy współczynnik Klastra dla każdego punktu i z tego możemy uzyskać „ogólny” średni współczynnik klastra.

intuicyjnie próbujemy zmierzyć przestrzeń między klastrami. Jeśli spójność klastra jest dobra (a jest mała) i separacja klastra jest dobra (B jest duża), licznik będzie duży itp.

skonstruowałem tutaj przykład, aby to graficznie zademonstrować.

 Współczynnik klastrowania  wyniki klastrowania dla nclusters = 2:5

na tych wykresach te same dane są wykreślane pięć razy; kolory wskazują klastry utworzone przez K-oznacza grupowanie, z k = 1,2,3,4,5. To znaczy, zmusiłem algorytm grupowania do podzielenia danych na 2 klastry, potem 3 itd. i odpowiednio pokolorowałem Wykres.

Wykres sylwetki pokazuje, że współczynnik sylwetki był najwyższy, gdy k = 3, co sugeruje, że jest to optymalna liczba klastrów. W tym przykładzie mamy szczęście, że jesteśmy w stanie wizualizować dane i możemy się zgodzić, że rzeczywiście, trzy klastry najlepiej oddaje segmentację tego zestawu danych.

gdybyśmy nie byli w stanie zwizualizować danych, być może z powodu wyższej wymiarowości, Wykres sylwetki nadal dałby nam sugestię. Mam jednak nadzieję, że moja dość długa odpowiedź tutaj wskazuje również na to, że ta „sugestia” może być bardzo niewystarczająca lub po prostu błędna w niektórych scenariuszach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.