¿Cómo interpretar la media de la gráfica de silueta?

La respuesta de Sergey contiene el punto crítico, que es que el coeficiente de silueta cuantifica la calidad de agrupación lograda so por lo que debe seleccionar el número de agrupaciones que maximice el coeficiente de silueta.

La respuesta larga es que la mejor manera de evaluar los resultados de sus esfuerzos de agrupación es comenzar examinando realmente, la inspección humana, los grupos formados y hacer una determinación basada en la comprensión de lo que representan los datos, lo que representa un grupo y lo que se pretende lograr con la agrupación.

Existen numerosos métodos cuantitativos para evaluar los resultados de la agrupación que deben utilizarse como herramientas, con plena comprensión de las limitaciones. Tienden a ser de naturaleza bastante intuitiva, y por lo tanto tienen un atractivo natural (como los problemas de agrupamiento en general).

Ejemplos: masa / radio / densidad del cúmulo,cohesión o separación entre cúmulos, etc. Estos conceptos a menudo se combinan, por ejemplo, la relación entre separación y cohesión debería ser grande si la agrupación tuviera éxito.

La forma en que se mide el agrupamiento se informa por el tipo de algoritmos de agrupamiento utilizados. Por ejemplo, medir la calidad de un algoritmo de agrupación en clústeres completo (en el que todos los puntos se colocan en clústeres) puede ser muy diferente de medir la calidad de un algoritmo de agrupación en clústeres difusos basado en umbrales (en el que un punto puede quedar sin clústeres como ‘ruido’).

El coeficiente de silueta es una de esas medidas. Funciona de la siguiente manera:

Para cada punto p, primero encuentre la distancia promedio entre p y todos los demás puntos en el mismo grupo (esta es una medida de cohesión, llámela A). Luego encuentre la distancia promedio entre p y todos los puntos en el clúster más cercano (esta es una medida de separación del otro clúster más cercano, llámelo B). El coeficiente de silueta para p se define como la diferencia entre B y A dividida por el mayor de los dos (max (A, B)).

Evaluamos el coeficiente de racimo de cada punto y de esto podemos obtener el coeficiente de racimo promedio ‘general’.

Intuitivamente, estamos tratando de medir el espacio entre los grupos. Si la cohesión del cúmulo es buena (A es pequeña) y la separación del cúmulo es buena (B es grande), el numerador será grande, etc.

He construido un ejemplo aquí para demostrar esto gráficamente.

Coeficiente de agrupamiento  Resultados de agrupamiento para nclusters = 2:5

En estas gráficas, los mismos datos se trazan cinco veces; los colores indican los clústeres creados por k-means clustering, con k = 1,2,3,4,5. Es decir, he forzado un algoritmo de agrupación para dividir los datos en 2 grupos, luego 3, y así sucesivamente, y coloreé el gráfico en consecuencia.

La gráfica de silueta muestra que el coeficiente de silueta era más alto cuando k = 3, lo que sugiere que es el número óptimo de racimos. En este ejemplo, tenemos la suerte de poder visualizar los datos y podríamos estar de acuerdo en que, de hecho, tres clústeres capturan mejor la segmentación de este conjunto de datos.

Si no pudiéramos visualizar los datos, quizás debido a una mayor dimensionalidad, una gráfica de silueta aún nos daría una sugerencia. Sin embargo, espero que mi respuesta un tanto larga también señale que esta «sugerencia» podría ser muy insuficiente o simplemente errónea en ciertos escenarios.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.