como interpretar a média do Gráfico de silhueta?

a resposta de Sergey contém o ponto crítico, que é que o coeficiente de silhueta quantifica a qualidade do Agrupamento alcançado-então você deve selecionar o número de clusters que maximiza o coeficiente de silhueta.

a resposta longa é que a melhor maneira de avaliar os resultados de seus esforços de agrupamento é começar examinando-inspeção humana-os clusters formados e fazendo uma determinação com base em uma compreensão do que os dados representam, o que um cluster representa e o que o clustering pretende alcançar.

existem inúmeros métodos quantitativos de avaliação de resultados de agrupamento que devem ser utilizados como ferramentas, com total compreensão das limitações. Eles tendem a ser de natureza bastante intuitiva e, portanto, têm um apelo natural (como problemas de agrupamento em geral).

exemplos: massa / raio / densidade do cluster, coesão ou separação entre clusters, etc. Esses conceitos são frequentemente combinados, por exemplo, a razão entre separação e coesão deve ser grande se o agrupamento for bem-sucedido.

a forma como o agrupamento é medido é informada pelo tipo de algoritmos de agrupamento usados. Por exemplo, medir a qualidade de um algoritmo de agrupamento completo (no qual todos os pontos são colocados em clusters) pode ser muito diferente de medir a qualidade de um algoritmo de agrupamento fuzzy baseado em limiar (no qual algum ponto pode ser deixado não agrupado como ‘ruído’).

o coeficiente de silhueta é uma dessas medidas. Funciona da seguinte forma:

para cada ponto p, primeiro Encontre a distância média entre p e todos os outros pontos no mesmo cluster (esta é uma medida de coesão, chame-A de a). Em seguida, encontre a distância média entre p e todos os pontos no cluster mais próximo (esta é uma medida de separação do outro cluster mais próximo, chame-o de B). O coeficiente de silhueta para p é definido como a diferença entre B e a dividido pelo maior dos dois (max(A,B)).

avaliamos o coeficiente de cluster de cada ponto e a partir disso podemos obter o coeficiente médio de cluster ‘geral’. Intuitivamente, estamos tentando medir o espaço entre clusters. Se a coesão do cluster for Boa (A é pequena) e a separação do cluster for boa (B é grande), o numerador será grande, etc.

eu construí um exemplo aqui para demonstrar isso graficamente.

coeficiente de ClusteringResultados de clustering para nclusters = 2:5

nestas parcelas os mesmos dados são plotados cinco vezes; as cores indicam os clusters criados por k-means clustering, com k = 1,2,3,4,5. Ou seja, forcei um algoritmo de agrupamento a dividir os dados em 2 clusters, depois 3 e assim por diante e colori o gráfico de acordo.

o gráfico de silhueta mostra que o coeficiente de silhueta foi maior quando k = 3, sugerindo que esse é o número ideal de clusters. Neste exemplo, temos a sorte de poder visualizar os dados e podemos concordar que, de fato, três clusters capturam melhor a segmentação desse conjunto de dados.

se não conseguíssemos visualizar os dados, talvez por causa da maior dimensionalidade, um gráfico de silhueta ainda nos daria uma sugestão. No entanto, espero que minha resposta um tanto prolixa aqui também aponte que essa “sugestão” pode ser muito insuficiente ou simplesmente errada em certos cenários.

Deixe uma resposta

O seu endereço de email não será publicado.