36. 판별분석의 예

지난 시간에는 '제16장. 판별분석' 중 판별분석의 목적과 분류, 판별함수, 판별분석을 위한 가정, 판별함수의 추정방식, Wilks' lambda, 표준화 정준판별함수 계수와 구조행렬, 분류함수, hit ratio 등의 주요 내용들을 정리해보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 클릭하여 확인할 수 있다)


이어서 이번 시간에는 지난 시간에 정리했던 판별분석의 주요 개념들을 깊이 있게 이해하기 위하여 관련 예제를 살펴보도록 할텐데, 판별분석은 마케팅에서 흔히 사용되는 것에 비하여 경영지도사 2차 시험에서는 판별분석 결과표의 해석과 관련된 문제는 아직 출제되지 않고 있다.


따라서 판별분석의 결과를 해석하는 문제의 출제 가능성이 높아지고 있는 만큼, 본 예제를 주의 깊게 확인하는 것이 좋겠다.


그럼 이번 시간도 시작해보자!



-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------


 Theme 

판별분석의 예

※처음글 - 1. 마케팅조사의 역할

※이전글 - 35. 판별분석의 주요 개념






본 예제는 설문지를 이용하여 70명의 판매원으로부터 수집한 자료를 SPSS 24를 이용하여 동시입력방식에 의해 판별분석한 결과이다. 


cf. 이 분석결과에 의해 신입사원이 어떠한 집단으로 분류될지 예측할 수 있으며, 신규 채용 시 어떤 기준(독립변수)을 중점적으로 확인해야 하는지에 대한 insight를 얻고자 하는 것이 이 분석의 목적이라고 할 수 있다.





1. 판별분석을 위한 변수와 정의



위 표에서 종속변수는 '실적 상위집단'과 '실적 하위집단'의 두 집단(명목척도)이며, 독립변수는 간격 or 비율척도로 측정된 자료의 '사교성', '평점', '경력', '직무성적'으로 4개인 것을 확인할 수 있다.



2. 분산-공분산 행렬의 동일성 검증



앞서 살펴본 등분산 검증과 동일하다. 등분산 검증에서는 귀무가설(H0)이 '분산이 동일하다' 로 설정되므로, 'α < p-value' 이면 등분산 가정이 충족된다.


위 표의 분석결과에서는 유의확률(p-value)이 '0.105'로 나타나 공분산행렬이 동일하다는 가정을 충족하는 것으로 나타났다.


cf. 문제에서 유의수준(α) 값이 주어지지 않으면 'α = 0.05' 라고 생각하면 된다.



3. 정준판별함수 계수



3-1. 판별식의 발견: 위 표의 정준판별함수 계수들을 이용하여 아래와 같은 판별함수(판별식)을 발견할 수 있다.


* Z = 0.039X₁ - 0.554X₂ + 0.168X₃ + 0.091X₄ - 8.128


3-2. 판별식의 이용한 판별점수 계산 : 


예를 들어, '판매원 1'의 점수가 '사교성(X₁)=23', '평점(X₂)=2.28', '경력(X₃)=3', '직무성적(X₄)=57'이라고 한다면, 판별점수는 다음과 같이 계산된다.


* (0.039 * 23) - (0.554 * 2.28) + (0.168 * 3) + (0.091 * 57) - 8.128 = -2.803


cf 1. 판별함수는 그래프 상에서 집단을 판별(구분)하는 직선이며, 각 집단의 중심값을 계산하는데 사용한다.


cf. 2. 판별분석에는 '종속변수 집단 수 - 1'과 '독립변수의 수' 중에서 작은 값만큼 판별함수가 만들어진다. 다만 경영지도사 시험에서는 종속변수 집단 수가 3개 이상인 경우는 출제될 가능성이 희박하므로, 판별함수가 하나라고 생각해도 무방하다.

 




4. 고유값과 Wilk's lambda



위 표는 정준판별함수를 요약하여 나타낸 것으로써, 이 표에서는 아래 두 가지를 확인해야 한다.


4-1. 통계적 유의성 검증


χ²-검증은 독립변수들에 걸쳐 두 집단 간에 차이가 있는지를 검증하는 것이다. 이는 'Wilks의 람다' 표의 '유의확률(p-value)'을 확인하여 알 수 있는데, 분석결과에서는 p-value가 '0.000' 으로 나타났으므로, 두 집단 간에 유의적인 차이가 있는 것을 확인할 수 있으며, 판별함수 역시 통계적으로 유의적임을 알 수 있다.


4-2. 정준상관계수


정준상관계수를 제곱한 값은 종속변수 분산의 몇 %가 독립변수들에 의해 설명되는지를 확인할 수 있는 값이다. 위의 분석결과에서는 정준상관계수가 '0.570'으로 나타났으므로 이를 제곱한 값인 '0.3249', 즉 종속변수 분산의 32.49%가 4개의 독립변수에 의해 설명됨을 의미한다.



5. 표준화 정준판별함수 계수와 구조행렬



표준화 정준판별함수 계수와 구조행렬의 판별적재값에 대해서는 지난 시간에 정리한 바 있으니 생략하겠다.


위 분석결과에서는 구조행렬에서 '경력'과 '평점'의 판별적재값이 ±0.4에 미치지 못하므로 판별력이 없는 것으로 해석할 수 있고, 판별력이 큰 순서는 '직무성적', '사교성' 순임을 확인할 수 있다.


cf. '표준화 정준판별함수 계수'는 '정준판별함수 계수'의 단위를 표준화 한 값이다.



6. 분류함수 (Fisher's 선형판별함수)



6-1. 위 표의 분류함수 계수들을 이용하여 아래와 같은 각 집단 별 분류함수를 만들 수 있다.


* 집단1의 분류함수 = 0.233X₁ + 2.581X₂ + 0.848X₃ + 0.623X₄ - 33.277


* 집단2의 분류함수 = 0.288X₁ + 1.803X₂ + 1.084X₃ + 0.751X₄ - 44.462


6-2. 분류집단의 결정 : 


위 분류함수에 판별함수에서의 예시와 같이 판매원 별 점수를 대입하여 계산해보면, '집단1의 분류함수'로 계산한 값과 '집단2의 분류함수'로 계산한 값 중 어느 한 값이 더 크게 산출되는데, 더 큰 값이 나온 집단으로 분류된다. 예를 들어 '집단2의 분류함수'에서 계산된 값이 더 크게 나왔다면 집단2(실적 상위집단)로 분류되는 것이다.


cf. 앞서 '판별분석을 위한 변수와 정의' 에서 '집단1 = 실적 하위집단(27명)', '집단2 = 실적 상위집단(43명)' 으로 범주를 정의한 바 있다.



7. 분류결과



분류결과표를 통하여 'hit ratio' 값을 구할 수 있다. 위 표에서는 전체 70명 중에 52명이 정확하게 분류되었으므로 'hit ratio = 52 / 70 = 74.3%' 가 된다. 


cf 1. 집단1로 정확하게 분류된 수가 20명이고, 집단 2로 정확하게 분류된 수가 32명으로 합하면 52명이 된다.


cf 2. hit ratio의 개념에 대해서는 지난 시간에 설명하였으므로 생략한다.


이 글을 공유하기

Designed by JB FACTORY