Come interpretare la media della trama della silhouette?

La risposta di Sergey contiene il punto critico, ovvero che il coefficiente di silhouette quantifica la qualità del clustering raggiunto so quindi è necessario selezionare il numero di cluster che massimizza il coefficiente di silhouette.

La risposta lunga è che il modo migliore per valutare i risultati dei tuoi sforzi di clustering è iniziare esaminando effettivamente-ispezione umana-i cluster formati e facendo una determinazione basata su una comprensione di ciò che i dati rappresentano, ciò che un cluster rappresenta e ciò che il clustering è destinato a raggiungere.

Esistono numerosi metodi quantitativi per valutare i risultati del clustering che dovrebbero essere utilizzati come strumenti, con piena comprensione delle limitazioni. Tendono ad essere abbastanza intuitivi in natura, e quindi hanno un fascino naturale (come i problemi di clustering in generale).

Esempi: massa / raggio / densità del cluster, coesione o separazione tra cluster, ecc. Questi concetti sono spesso combinati, ad esempio, il rapporto tra separazione e coesione dovrebbe essere grande se il clustering ha avuto successo.

Il modo in cui viene misurato il clustering è informato dal tipo di algoritmi di clustering utilizzati. Ad esempio, la misurazione della qualità di un algoritmo di clustering completo (in cui tutti i punti sono inseriti in cluster) può essere molto diversa dalla misurazione della qualità di un algoritmo di clustering fuzzy basato sulla soglia (in cui un punto potrebbe essere lasciato non cluster come “rumore”).

Il coefficiente di silhouette è una di queste misure. Funziona come segue:

Per ogni punto p, prima trova la distanza media tra p e tutti gli altri punti nello stesso cluster (questa è una misura di coesione, chiamala A). Quindi trova la distanza media tra p e tutti i punti nel cluster più vicino (questa è una misura di separazione dall’altro cluster più vicino, chiamalo B). Il coefficiente di silhouette per p è definito come la differenza tra B e A divisa per il maggiore dei due(max (A,B)).

Valutiamo il coefficiente di cluster di ogni punto e da questo possiamo ottenere il coefficiente medio di cluster “complessivo”.

Intuitivamente, stiamo cercando di misurare lo spazio tra i cluster. Se la coesione del cluster è buona (A è piccola) e la separazione del cluster è buona (B è grande), il numeratore sarà grande, ecc.

Ho costruito un esempio qui per dimostrarlo graficamente.

Coefficiente di clustering  Risultati del clustering per nclusters = 2:5

In questi grafici gli stessi dati vengono tracciati cinque volte; i colori indicano i cluster creati da k-means clustering, con k = 1,2,3,4,5. Cioè, ho forzato un algoritmo di clustering per dividere i dati in 2 cluster, quindi 3 e così via, e colorato il grafico di conseguenza.

Il grafico silhouette mostra che il coefficiente silhouette era più alto quando k = 3, suggerendo che è il numero ottimale di cluster. In questo esempio siamo fortunati ad essere in grado di visualizzare i dati e potremmo essere d’accordo sul fatto che in effetti, tre cluster catturano al meglio la segmentazione di questo set di dati.

Se non fossimo in grado di visualizzare i dati, forse a causa di una maggiore dimensionalità, una trama silhouette ci darebbe comunque un suggerimento. Tuttavia, spero che la mia risposta un po ‘ prolissa qui sottolinei anche che questo “suggerimento” potrebbe essere molto insufficiente o semplicemente sbagliato in determinati scenari.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.