실루엣 플롯의 평균을 해석하는 방법?

세르게이의 대답은 실루엣 계수가 달성 클러스터링의 품질을 정량화한다는 임계점을 포함-그래서 당신은 실루엣 계수를 극대화 클러스터의 수를 선택해야합니다.

긴 대답은 클러스터링 노력의 결과를 평가하는 가장 좋은 방법은 형성된 클러스터를 실제로 검사하고 데이터가 무엇을 나타내는 지,클러스터가 무엇을 나타내는 지,클러스터링이 달성하려는 의도에 대한 이해를 기반으로 결정을 내리는 것입니다.

한계에 대한 완전한 이해와 함께 도구로 사용되어야 할 클러스터링 결과를 평가하는 수많은 정량적 방법이 있습니다. 그들은 본질적으로 상당히 직관적 인 경향이 있으므로(일반적으로 클러스터링 문제와 같은)자연스러운 매력을 가지고 있습니다.

예:클러스터 질량/반경/밀도,클러스터 간의 응집력 또는 분리 등 예를 들어 클러스터링이 성공한 경우 분리 대 응집력 비율이 커야 합니다.

클러스터링이 측정되는 방식은 사용된 클러스터링 알고리즘의 유형에 의해 알려진다. 예를 들어,전체 클러스터링 알고리즘(모든 점이 클러스터에 배치됨)의 품질을 측정하는 것은 임계 값 기반 퍼지 클러스터링 알고리즘(일부 점이’노이즈’로 클러스터되지 않은 상태로 남아있을 수 있음)의 품질을 측정하는 것과 매우 다를 수 있습니다.

실루엣 계수는 그러한 측정 중 하나입니다. 그것은 다음과 같이 작동합니다:

각 점에 대해 피,먼저 사이의 평균 거리를 찾으십시오 피 그리고 같은 클러스터의 다른 모든 점(이것은 응집력의 척도입니다. 그런 다음 사이의 평균 거리를 찾으십시오 피 그리고 가장 가까운 클러스터의 모든 점(이것은 가장 가까운 다른 클러스터와의 분리 측정 값입니다. 에 대한 실루엣 계수 피 사이의 차이로 정의됩니다 비 과 ㅏ 나누기 둘 중 큼(최대(ㅏ,비)).

우리는 각 점의 군집 계수를 평가하고 이것으로부터’전체’평균 군집 계수를 얻을 수 있습니다.

직관적으로,우리는 클러스터 사이의 공간을 측정하려고합니다. 클러스터 응집력이 좋은 경우(ㅏ 작음)클러스터 분리가 좋은 경우(비 큰 경우),분자는 클 것입니다.

이것을 그래픽으로 보여주기 위해 여기에 예제를 만들었습니다.

클러스터링 계수클러스터에 대한 클러스터링 결과= 2:5

이 플롯에서 동일한 데이터가 5 번 플롯됩니다.색상은 케이-의미 클러스터링,와 함께 케이=1,2,3,4,5. 즉,클러스터링 알고리즘으로 데이터를 2 개의 클러스터로 나눈 다음 3 등으로 나누고 그에 따라 그래프를 색칠했습니다.

실루엣 그림은 실루엣 계수가 케이=3 일 때 가장 높았음을 보여 주며,이것이 최적의 클러스터 수임을 시사합니다. 이 예에서 우리는 데이터를 시각화 할 수있어서 운이 좋으며 실제로 세 개의 클러스터가이 데이터 세트의 분할을 가장 잘 캡처한다는 데 동의 할 수 있습니다.

더 높은 차원 때문에 데이터를 시각화 할 수 없다면 실루엣 플롯은 여전히 우리에게 제안을 줄 것입니다. 그러나,나는 나의 다소 장황한 대답이 또한 특정 시나리오에서이”제안”이 매우 불충분하거나 단지 명백한 잘못 일 수 있다는 점을 희망한다.

답글 남기기

이메일 주소는 공개되지 않습니다.