37. 군집분석

지난 시간에는 '제16장. 판별분석'의 주요 개념들을 관련된 예제를 통하여 확인해보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)


이어서 이번 시간에는 '제17장. 군집분석'과 관련된 주요 개념들을 정리해보도록 할텐데, 군집분석은 요인분석 및 판별분석과 언뜻 보기에는 상당히 비슷해 보이므로 이들과 확실히 구분할 수 있어야 하겠고, 표본의 통계량으로부터 모집단의 모수를 추정하는 것이 아닌 주어진 자료의 구조를 파악하여 기술하는 기술통계학에 속하므로 모집단의 정규성이나 집단간 공분산의 동일성과 같은 가정이 요구되지 않는다는 점을 염두해두어야 하겠다.


참고로 경영지도사 2차 마케팅조사 시험 대비용으로 학습해야 할 주제 중 이제 남은 부분은 이번 시간에 정리할 '군집분석'과 '다차원척도법', '컨조인트분석' 정도인데, 이들 부분은 앞서의 다른 분석방법처럼 공식을 이용하여 문제를 풀거나 통계패키지 분석결과를 해석하는 문제보다는 주요 개념들에 대한 약술형 10점 문제가 출제될 가능성이 높으니 그에 대비하는 것이 좋겠다.


그럼 이번 시간도 시작해보자!



--------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

--------------------------------------------------


 Theme 

군집분석 (Cluster analysis)

※처음글 - 1. 마케팅조사의 역할

※이전글 - 36. 판별분석의 예




1. 군집분석의 개념


특성이 유사한 대상들끼리 그룹핑하는 다변량 통계기법으로써, 군집 내의 구성원들은 유사하게, 군집들 간에는 상이하게 대상들을 그룹핑하는 것이 핵심이다. 


cf. 유사하게 그룹핑한다는 것은 거리가 가까운 대상들을 한 그룹으로 묶는다는 것인데, 그래서 군집분석에서는 거리를 측정하는 것이 핵심이고, 시장세분화를 위해 많이 이용하는 방법이다.



2. 유사 분석기법과의 차이점


2-1. 요인분석과 군집분석


2-1-1. 공통점 : 자료 구조를 평가한다는 점

2-1-2. 차이점 : 요인분석은 변수들을 그룹핑, 군집분석은 대상들을 그룹핑.


2-2. 판별분석과 군집분석


2-2-1. 공통점 : 대상들을 분류한다는 점


2-2-2. 차이점 : 판별분석은 사전에 집단이 나누어져 있고, 집단 간 차별적 특성을 설명하는 변수를 발견하는 것이 핵심이다. 반면 군집분석은 사전에 집단이 나누어져 있지 않으며 여러 변수들에 걸쳐 유사한 대상들을 집단화한다는 점이 다르다.



3. 자료


명목척도나 서열척도로 측정된 값들로도 군집분석이 가능하기는 하나, 대부분 간격척도 혹은 비율척도로 측정된 거리값을 가장 많이 사용한다.



4. 거리의 계산방법


4-1. 유클리디안(Euclidean) 거리



4-2. 제곱 유클리디안 거리



4-3. 거리 계산 시 주의점 :


변수들의 단위가 다른 경우는 원자료(raw data)를 그대로 사용해서는 안되고, 표준화된 값을 사용해야 한다.





5. 군집화 방식



5-1. 계층적 군집화


처음 각 대상이 독립군집으로 시작하여 가까운 거리의 대상들과 군집화를 이루어 나가는 방식으로써, 다음과 같은 종류가 있다


5-1-1. 단일결합법 : 군집 간 거리 계산 시 최단거리를 기준으로 한다. 


ex> 군집의 거리가 아래와 같을 때 단일결합법(최단거리) 기준으로 군집화 과정은 다음과 같다.



Step 1) BC 간의 거리가 1로 가장 작으므로 가장 먼저 군집화한다.

Step 2) 그 다음은 DE 간의 거리가 1.5로 가장 가까우므로 DE 군집이 이루어진다.

Step 3) 그 다음은 BC군집과 A 간의 거리가 2(A~B간 거리)로 가장 가까우므로 BCA 군집이 이루어진다.

Step 4) 그 다음은 마지막으로 BCA 군집과 DE 군집이 결합된다.


5-1-2. 완전결합법 : 군집 간 거리 계산 시 최장거리를 기준으로 한다.


ex> '5-1-1'의 예에서 BC군집과 A 간의 거리를 3(A~C간 거리)으로 측정한다.


5-1-3. 평균결합법 : 군집 간 거리 계산 시 한 군집의 모든 구성원들로부터 다른 군집의 모든 구성원들까지의 거리의 평균을 기준으로 한다.


ex 1> '5-1-1'의 예에서 BC군집과 A 간의 거리는 '(AB+AC)/2' 와 같으며, 이를 계산하면 '2+3/2=2.5'가 된다.


ex 2> BC군집과 DE군집 간의 거리는 '(BD+BE+CD+CE)/4' 와 같으며, 이를 계산하면 '3.5+5+2.5+4/4=3.75'가 된다.


5-1-4. Ward 법 : 두 군집에 속한 각 구성원이 평균으로부터 떨어진 정도를 기준으로 한다.3


5-2. 비계층적 군집화


사전에 군집의 수를 임의로 정하고 대상들을 군집에 할당시키는 방법으로써, 가장 많이 이용되는 방법은 'K-평균법'이며, 군집화 진행방식은 다음과 같다.


Step 1) 하나의 군집씨앗이 선택되고, 사전에 명시된 한정거리 이내의 대상들이 그 군집씨앗을 중심으로 군집화.


Step 2) 다른 군집씨앗이 선택되고, 'Step 1'과 동일한 방식으로 군집화.


Step 3) 이 과정에서 기존 군집에 속하는 대상이라도 새로운 군집씨앗에 보다 가까우면 새로운 군집으로 이동.


Step 4) 이런 식으로 K 개의 군집이 도출될 때 까지 계속 진행.


5-3. 계층적군집화와 비계층적군집화


5-3-1. 계층적 군집화의 한계 : 


한 대상이 어느 군집에 속하게 되면 다른 군집으로 이동이 불가능하고, 극단값(예외값)이 제거되지 않고 어느 군집에 속하게 된다.


5-3-2. 비계층적 군집화의 한계 :


계층적 군집화에서 발생하는 문제는 없으나 적정 군집 수에 대한 사전 정보가 없을 수 있다.


5-3-3. 대안 : 


따라서 현실적으로 많이 사용하는 방법은 계층적 방법에 의해 군집화를 하여 적정 군집수를 찾아낸 다음, 비계층적 방법을 적용한다.



6. 군집에 명칭 부여


군집분석 결과에 따라 도출되는 각 군집의 명칭을 원자료의 평균값을 활용하여 부여한다. 


이 글을 공유하기

Designed by JB FACTORY