판별분석 연습문제 풀이

평생학습관/경영지도사 2차
2017. 6. 18. 01:00

이전 시간에는 교재(마케팅조사 4판, 이학식_집현재) '제15장. 요인분석' 편에 수록된 연습문제 풀이를 공유해보았다. (지난 시간의 풀이내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)

이어서 이번 시간에는 연습문제 풀이의 마지막으로 '제16장. 판별분석' 연습문제를 풀어보도록 할텐데, 나머지 '군집분석', '다차원척도법', '컨조인트분석' 에서의 연습문제는 단순히 표를 해석하는 정도의 문제이고, 시험 대비 차원에서의 중요도도 다소 낮으므로 이에 대한 풀이는 생략하도록 하겠다.

참고로 경영지도사 2차 시험대비 차원에서의 통계 부분에서는 '기초통계', '단일모집단 평균ㆍ비율 검증', '두 모집단 평균ㆍ비율차이 검증', '대응표본 t-검증', '독립성 검증', '적합도 검증', '분산분석', '상관분석', '회귀분석', '요인분석', '판별분석' 이 중요한 파트이고, 그 중에서도 상관분석과 회귀분석이 핵심적인 파트이니 이 부분은 철저하게 대비를 하도록 해야겠다.

본 포스팅의 풀이에서도 이전 시간들과 마찬가지로 문제의 구체적인 내용은 생략하니, 교재를 참고해주길 바라겠고, 풀이를 보기 이전에 본인이 직접 문제를 풀어본 후 서로 간의 해답을 비교해보는 용도로 활용하기를 권장한다.

시작해보자!

-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------

Theme

'판별분석' 연습문제 풀이

※이전글 - 요인분석 연습문제 풀이

※관련정리 - 35. 판별분석의 주요 개념

※관련정리 - 36. 판별분석의 예

문제

아래 자료는 30 가구들의 여행 관련 자료로써, 각 가족이 전년도 여름에 휴가여행을 갔는지의 여부와 이에 영향을 미칠 것으로 생각되는 변수들에 관한 자료이다. 각 숫자의 의미는 아래와 같다. 이 자료를 판별분석한 결과를 보고 다음 물음에 답하시오.

(자료 생략)

Q1) 판별함수를 나타내시오.

A1) 'X1 = 연소득', 'X2 = 여행태도', 'X3 = 여행중요', 'X4 = 가족규모', 'X5 = 가장나이' 일 때,

* Z = 0.85X1 + 0.05X2 + 0.12X3 + 0.427X4 + 0.025X5 - 7.975

Q2) 분류되는 두 집단들은 공분산 행렬의 동일성 가정을 충족시키는가?

A2) 집단들의 공분산 행렬이 동일하다는 영가설을 설정하였을 때, 공분산 행렬의 동일성에 대한 Box의 M 검증결과 유의확률이 '0.141'로 유의수준의 '0.05' 크므로 영가설을 기각할 수 없다. 따라서 공분산행렬이 동일하다는 가정은 충족된다.

Q3) (1)에서 제시한 판별함수는 통계적으로 유의적인가? 어느 값을 봐야 하는가?

A3) 판별함수가 통계적으로 유의적인지 확인하기 위해서는 고유값과 Wilks' lambda에서 Wilk의 람다에 카이제곱 검증통계량에 대한 유의확률을 확인하면 되는데, 분석결과에서는 유의확률이 '0.000'으로 나타났으므로, 위의 판별함수는 통계적으로 유의적이라고 할 수 있다.

Q4) 종속변수 분산의 몇 %가 다섯 개의 독립변수들에 의해 설명되는가?

A4) 정준상관계수의 제곱값은 종속변수 분산의 몇 %가 독립변수들에 의해 설명되는지를 나타낸다. 분석결과에서는 정준상관계수가 '0.801'로 나타났으므로 이를 제곱한 값인 '0.6416', 즉 64.16%가 된다. 이는 종속변수 분산의 64.16%가 5개의 독립변수에 의해 설명됨을 의미한다.

Q5) 판별력이 유의적인 변수들은 어느 변수들인가? 판별력 크기의 순서대로 답하시오.

A5) 판별력은 '표준화 정준판별함수 계수' 또는 '구조행렬'을 통해 확인할 수 있다. 다만, 전통적으로 각 독립변수의 판별력을 보기 위하여 '표준화 정준판별함수 계수'를 이용하였으나, 각 변수의 판별력이 다중공선성 때문에 낮게 나타날 수 있으며, 또한 불안정하여 최근에는 구조행렬 상의 판별적재값을 많이 이용한다.

여기서 판별적재값이란, 각 독립변수와 표준화 정준판별함수 계수 간의 상관관계를 나타낸 값으로써, 보통 ±0.4 이상이면 유의적으로 받아들인다.

분석결과에서는 연소득과 가족규모가 유의적으로 나타나며, 그 중 연소득이 가장 판별력이 큰 것으로 나타난다.

Q6) 분류함수가 표본 구성원들의 분류를 얼마나 잘 나타내는가?

A6) 분류함수가 표본구성원들의 분류를 얼마나 잘 나타내는지는 'hit ratio'를 통해 확인할 수 있다. 'hit ratio'는 전체 수 대비 정확하게 분류된 수의 비율인데, 분석결과에서는 전체 '30' 중에 '27'이 정확하게 분류되었으므로 분류함수가 90% 확률로 표본 구성원들의 분류를 잘 나타낸다고 할 수 있다.