hogyan kell értelmezni a sziluett plot átlagát?

Szergej válasza tartalmazza a kritikus pontot, amely az, hogy a sziluett-együttható számszerűsíti az elért klaszterezés minőségét-tehát ki kell választania a klaszterek számát, amely maximalizálja a sziluett-együtthatót.

a hosszú válasz az, hogy a csoportosítási erőfeszítések eredményeinek értékelésének legjobb módja az, ha ténylegesen megvizsgáljuk-emberi ellenőrzés-a létrejött klasztereket, és meghatározunk egy olyan meghatározást, amely annak megértésén alapul, hogy mit képviselnek az adatok, mit képvisel a klaszter, és mit szándékoznak elérni a klaszterezéssel.

számos kvantitatív módszer létezik a klaszterezési eredmények értékelésére, amelyeket eszközként kell használni, a korlátozások teljes megértésével. Általában meglehetősen intuitív természetűek, ezért természetes vonzerejük van (mint általában a klaszterezési problémák).

példák: klasztertömeg / sugár / sűrűség, kohézió vagy klaszterek közötti elválasztás stb. Ezeket a fogalmakat gyakran kombinálják, például a szétválasztás és a kohézió arányának nagynak kell lennie, ha a klaszterezés sikeres volt.

a klaszterezés mérésének módját az alkalmazott klaszterezési algoritmusok típusa határozza meg. Például egy teljes fürtözési algoritmus minőségének mérése (amelyben az összes pont fürtökbe kerül) nagyon eltérhet a küszöbérték-alapú fuzzy fürtözési algoritmus (amelyben egy pont fürtözetlenül maradhat ‘zaj’).

a sziluett együttható egy ilyen intézkedés. A következőképpen működik:

minden p pontnál először keresse meg az átlagos távolságot p és az ugyanazon klaszter összes többi pontja között (ez a kohézió mértéke, nevezzük a-nak). Ezután keresse meg az átlagos távolságot p és a legközelebbi klaszter összes pontja között (ez a legközelebbi klasztertől való elválasztás mértéke, nevezzük B-nek). A P sziluett együtthatója a B és A közötti különbség osztva a kettő közül a nagyobbal (max (A,B)).

kiértékeljük az egyes pontok klaszter együtthatóját, és ebből megkapjuk a teljes átlagos klaszter együtthatót.

intuitív módon megpróbáljuk mérni a klaszterek közötti teret. Ha a klaszter kohéziója jó (A kicsi) és a klaszter elválasztása jó (B nagy), akkor a számláló nagy lesz stb.

Itt készítettem egy példát ennek grafikus bemutatására.

 klaszterezési együttható az nclusters csoportosításának eredményei = 2:5

ezekben a diagramokban ugyanazokat az adatokat ötször ábrázoljuk; a színek jelzik a k által létrehozott klasztereket-fürtözést jelent, k = 1,2,3,4,5. Vagyis arra kényszerítettem egy klaszterező algoritmust, hogy az adatokat 2 klaszterre, majd 3-ra és így tovább, és ennek megfelelően színeztem a gráfot.

a sziluettdiagram azt mutatja, hogy a sziluett-együttható akkor volt a legmagasabb, amikor k = 3, ami arra utal, hogy ez a klaszterek optimális száma. Ebben a példában szerencsések vagyunk, hogy képesek vagyunk vizualizálni az adatokat, és egyetérthetünk abban, hogy valóban három klaszter rögzíti a legjobban az adatkészlet szegmentálását.

ha nem tudnánk megjeleníteni az adatokat, talán a magasabb dimenzió miatt, egy sziluettdiagram még mindig javaslatot adna nekünk. Remélem azonban, hogy itt kissé hosszadalmas válaszom arra is rámutat, hogy ez a “javaslat” nagyon elégtelen lehet, vagy egyszerűen téves lehet bizonyos forgatókönyvekben.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.