Comment interpréter la moyenne du tracé de la Silhouette?

La réponse de Sergey contient le point critique, à savoir que le coefficient de silhouette quantifie la qualité du clustering atteint — vous devez donc sélectionner le nombre de clusters qui maximise le coefficient de silhouette.

La réponse longue est que la meilleure façon d’évaluer les résultats de vos efforts de regroupement est de commencer par examiner – une inspection humaine – les clusters formés et de prendre une décision basée sur une compréhension de ce que les données représentent, ce que représente un cluster et ce que le regroupement est destiné à atteindre.

Il existe de nombreuses méthodes quantitatives d’évaluation des résultats de regroupement qui devraient être utilisées comme outils, en comprenant pleinement les limites. Ils ont tendance à être de nature assez intuitive et ont donc un attrait naturel (comme les problèmes de regroupement en général).

Exemples : masse/rayon/densité de grappes, cohésion ou séparation entre grappes, etc. Ces concepts sont souvent combinés, par exemple, le rapport séparation / cohésion devrait être important si le regroupement réussissait.

La façon dont le clustering est mesuré est informée par le type d’algorithmes de clustering utilisés. Par exemple, la mesure de la qualité d’un algorithme de clustering complet (dans lequel tous les points sont placés en clusters) peut être très différente de la mesure de la qualité d’un algorithme de clustering flou basé sur un seuil (dans lequel un point peut être laissé non clusterisé en tant que « bruit »).

Le coefficient de silhouette est l’une de ces mesures. Cela fonctionne comme suit:

Pour chaque point p, trouvez d’abord la distance moyenne entre p et tous les autres points du même cluster (c’est une mesure de cohésion, appelez-la A). Trouvez ensuite la distance moyenne entre p et tous les points du cluster le plus proche (il s’agit d’une mesure de séparation de l’autre cluster le plus proche, appelez-le B). Le coefficient de silhouette pour p est défini comme la différence entre B et A divisée par le plus grand des deux (max(A, B)).

Nous évaluons le coefficient de cluster de chaque point et à partir de cela, nous pouvons obtenir le coefficient de cluster moyen « global ».

Intuitivement, nous essayons de mesurer l’espace entre les clusters. Si la cohésion des grappes est bonne (A est petite) et la séparation des grappes est bonne (B est grande), le numérateur sera grand, etc.

J’ai construit un exemple ici pour le démontrer graphiquement.

 Coefficient de regroupement  Résultats du regroupement pour les nclusters = 2:5

Dans ces tracés, les mêmes données sont tracées cinq fois; les couleurs indiquent les clusters créés par le regroupement de k-means, avec k = 1,2,3,4,5. Autrement dit, j’ai forcé un algorithme de clustering à diviser les données en 2 clusters, puis 3, et ainsi de suite, et j’ai coloré le graphique en conséquence.

Le graphique de silhouette montre que le coefficient de silhouette était le plus élevé lorsque k = 3, suggérant que c’est le nombre optimal de grappes. Dans cet exemple, nous avons la chance de pouvoir visualiser les données et nous pourrions convenir qu’en effet, trois clusters capturent le mieux la segmentation de cet ensemble de données.

Si nous ne pouvions pas visualiser les données, peut-être à cause d’une dimensionnalité plus élevée, un tracé de silhouette nous donnerait toujours une suggestion. Cependant, j’espère que ma réponse un peu longue fait également ressortir que cette « suggestion » pourrait être très insuffisante ou tout simplement fausse dans certains scénarios.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.