miten tulkitaan Siluettikuvan keskiarvo?

Sergeyn vastaus sisältää kriittisen pisteen, joka on se, että siluettikerroin kvantifioi saavutetun klusteroinnin laadun-joten kannattaa valita klusterien määrä, joka maksimoi siluettikertoimen.

pitkä vastaus on, että paras tapa arvioida ryhmittelyponnistelujesi tuloksia on aloittaa tutkimalla muodostuneita klustereita ja tekemällä määritys, joka perustuu ymmärrykseen siitä, mitä data edustaa, mitä klusteri edustaa ja mitä ryhmittelyllä on tarkoitus saavuttaa.

on olemassa lukuisia kvantitatiivisia menetelmiä ryhmittelytulosten arvioimiseksi, joita tulisi käyttää työkaluina, ja niiden rajoitukset tulisi täysin ymmärtää. Ne ovat yleensä melko intuitiivinen luonteeltaan, ja siten on luonnollinen valitus (kuten klusterointi ongelmia yleensä).

esimerkkejä: klusterin massa / säde / tiheys, klustereiden välinen koheesio tai ero jne. Näitä käsitteitä yhdistetään usein, esimerkiksi erotuksen ja koheesion suhteen pitäisi olla suuri, jos ryhmittely onnistuisi.

ryhmittelyn mittaustavasta kertoo käytettyjen ryhmittelyalgoritmien tyyppi. Esimerkiksi täydellisen ryhmittelyalgoritmin laadun mittaaminen (jossa kaikki pisteet laitetaan klustereiksi) voi olla hyvin erilaista kuin kynnysarvoon perustuvan sumean ryhmittelyalgoritmin laadun mittaaminen (jossa jokin kohta saatetaan jättää ryhmittelemättä ”kohinaksi”).

siluettikerroin on yksi tällainen mitta. Se toimii seuraavasti:

jokaiselle pisteelle p etsitään ensin keskimääräinen etäisyys p: n ja kaikkien muiden saman klusterin pisteiden välillä (tämä on koheesion mitta, kutsutaan sitä A: ksi). Sitten löytää keskimääräinen etäisyys P ja kaikki kohdat lähimmän klusterin (tämä on toimenpide erottaminen lähin muut klusterin, call it B). P: n siluettikerroin määritellään B: n ja A: n erotuksena jaettuna näistä suuremmalla (max(A,B)).

arvioimme kunkin pisteen klusterikertoimen ja tästä saadaan ”yleinen” keskimääräinen klusterikerroin.

intuitiivisesti yritämme mitata klustereiden välistä tilaa. Jos klusterin koheesio on hyvä (A on pieni) ja klusterin ero on hyvä (B on suuri), osoittaja on suuri jne.

olen rakentanut tähän esimerkin osoittaakseni tämän graafisesti.

 Ryhmittelykerroinryhmittelyn tulokset= 2:5

näissä kuvioissa sama data piirretään viisi kertaa; värit ilmaisevat k-merkillä muodostetut klusterit siten, että K = 1,2,3,4,5. Toisin sanoen olen pakottanut ryhmittelyalgoritmin jakamaan tiedot 2 klusteriin, sitten 3: een ja niin edelleen, ja värittänyt kuvaajan sen mukaisesti.

siluettikuva osoittaa, että siluettikerroin oli korkein, kun k = 3, mikä viittaa siihen, että se on optimaalinen klusterien lukumäärä. Tässä esimerkissä olemme onnekkaita voidessamme visualisoida tiedot ja voimme olla samaa mieltä siitä, että kolme klusteria kuvaa parhaiten tämän tietojoukon segmentointia.

jos emme pystyisi visualisoimaan aineistoa, ehkä korkeamman dimensionaalisuuden vuoksi, siluettikuva antaisi meille silti ehdotuksen. Toivon kuitenkin, että hieman pitkäveteinen vastaukseni osoittaa myös, että tämä ”ehdotus” voi olla hyvin riittämätön tai yksinkertaisesti väärä tietyissä tilanteissa.

Vastaa

Sähköpostiosoitettasi ei julkaista.