シルエットプロットの平均をどのように解釈するのですか?

Sergeyの答えには、シルエット係数が達成されたクラスタリングの品質を定量化するという臨界点が含まれています。

長い答えは、クラスタリングの努力の結果を評価する最良の方法は、実際に形成されたクラスターを調べ、データが何を表しているのか、クラスターが何を表しているのか、クラスタリングが何を達成するために意図されているのかを理解することから始めることであるということです。

クラスタリング結果を評価するには、限界を十分に理解した上で、ツールとして使用する必要がある定量的な方法が数多くあります。 彼らは本質的にかなり直感的である傾向があり、したがって(一般的なクラスタリング問題のような)自然な魅力を持っています。

例:クラスターの質量/半径/密度、クラスター間の凝集または分離など。 これらの概念はしばしば組み合わされ、例えば、クラスタリングが成功した場合、分離と凝集の比率は大きくなければならない。

クラスタリングの測定方法は、使用されるクラスタリングアルゴリズムのタイプによって通知されます。 たとえば、完全なクラスタリングアルゴリズム(すべての点がクラスターに配置される)の品質を測定することは、しきい値ベースのファジィクラスタリングアルゴリズム(ある点が”ノイズ”としてクラスター化されていないままにされる可能性がある)の品質を測定することとは非常に異なる場合があります。

シルエット係数はそのような尺度の一つです。 それは次のように動作します:

各点pについて、最初にpと同じクラスタ内の他のすべての点との間の平均距離を求めます(これは凝集の尺度であ 次に、pと最も近いクラスター内のすべての点との間の平均距離を求めます(これは、最も近い他のクラスターからの分離の尺度であり、Bと呼びます)。 Pのシルエット係数は、BとAの差を2つのうち大きい方の値(max(a,B))で割ったものとして定義されます。

各点のクラスタ係数を評価し、ここから”全体”の平均クラスタ係数を得ることができます。

直感的には、クラスタ間の空間を測定しようとしています。 クラスターの凝集性が良好(Aが小さい)で、クラスターの分離が良好(Bが大きい)であれば、分子は大きくなります。

私はこれをグラフィカルに示すためにここで例を構築しました。

クラスタリング係数nclustersのクラスタリング結果= 2:5

これらのプロットでは、同じデータが5回プロットされ、色はk=1,2,3,4,5のk平均クラスタリングによって作成されたクラスターを示します。 つまり、クラスタリングアルゴリズムでデータを2つのクラスター、次に3つのクラスターなどに分割し、それに応じてグラフに色を付けました。

シルエットプロットは、k=3のときにシルエット係数が最も高かったことを示しており、それが最適なクラスター数であることを示唆しています。 この例では、データを視覚化できることは幸運であり、実際には、3つのクラスターがこのデータセットのセグメント化を最もよく捉えることに同意するかもしれません。

データを視覚化できなかった場合、おそらくより高い次元のために、シルエットプロットはまだ私たちに提案を与えるでしょう。 しかし、ここでの私のやや長い答えは、この”提案”が特定のシナリオでは非常に不十分であるか、単に間違っている可能性があるという点にもなります。

コメントを残す

メールアドレスが公開されることはありません。