35. 판별분석의 주요 개념

평생학습관/경영지도사 2차
2017. 5. 18. 01:00

지난 시간에는 '제15장. 요인분석'의 주요 개념들을 관련된 예제를 통하여 확인해 보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)

이어서 이번 시간에는 '제16장. 판별분석'과 관련된 주요 개념들을 정리해보도록 할텐데, 앞서 살펴보았던 회귀분석이 독립변수와 종속변수가 모두 간격 or 비율척도로 측정된 경우 변수들 간의 관계에 관한 분석이었다면, 판별분석은 독립변수는 간격 or 비율척도이지만 종속변수가 명목척도로 측정된 경우의 독립변수와 종속변수 간 관계를 조사하는 분석방법이다.

참고로, 판별분석의 주요 개념들은 회귀분석과 유사한 부분이 많으므로 회귀분석의 개념과 대응시켜 이해하고 암기하는 것이 효과적이다.

그럼 시작해보자.

-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------

Theme

판별분석 (Discriminant analysis)

※처음글 - 1. 마케팅조사의 역할

※이전글 - 34. 요인분석의 예

1. 판별분석의 개념

은행의 신용카드 발급 담당자가 기존 고객들을 통하여 신용우량자와 신용불량자의 차별적 특성을 안다면 새로운 고객이 신용카드 발급을 신청했을 때 그 고객의 특성으로부터 발급 여부를 결정할 수 있다. 이럴 때 판별분석은 매우 유용하게 이용될 수 있다.

즉, 기존의 경험이나 사례 등을 통하여 판별함수를 발견하고, 이를 통하여 새로운 대상을 어느 집단으로 분류할 것인지 판별할 수 있는 것이다.

2. 판별분석의 목적

2-1. 어떤 변수들이 어느 방향으로 얼마만큼 판별점수에 영향을 미치는지 알 수 있다.

2-2. 새로운 대상의 독립변수의 값에 대한 정보가 있을 때 판별점수를 계산하여 그 대상이 어느 범주에 속할 것인지를 예측할 수 있다.

cf. 회귀분석의 목적과 유사하니 비교하여 암기하도록 하자.

※관련글 - 31. 단순회귀분석

※관련글 - 32. 다중회귀분석

3. 종속변수의 범주 수에 따른 분류

3-1. 두 집단 판별분석 (two-group discriminant analysis) : 종속변수의 범주가 2개인 경우의 판별분석.

3-2. 다중판별분석 (multiple ~) : 종속변수의 범주가 3개 이상인 경우의 판별분석.

4. 판별함수 (Discriminant function)

판별분석의 기본적 과업은 집단 내 분산에 비한 집단간 분산의 차이를 최대화하는 독립변수의 계수를 찾아내는 것이다. 이 때 독립변수들의 선형결합을 판별함수(판별식)라고 하며 다음과 같이 표현된다.

한편, 판별함수는 SPSS output 중 '정준판별함수 계수'에 나타난 계수로 만들수 있다.

cf. 판별함수는 다중회귀분석에서의 다중회귀식과 유사하다고 생각하면 된다.

5. 판별분석을 위한 가정

5-1. 독립변수들이 다변량 정규분포를 이룬다.

5-2. 종속변수에 의해 범주화되는 집단들의 분산-공분산행렬이 동일하다.

6. 판별함수의 추정방식 : 동시입력방식과 단계입력방식이 있다.

cf. 다중회귀분석에서의 동시입력방식과 단계입력방식과 내용 동일.

7. Wilks' lambda

판별함수의 판별력의 통계적 유의성을 점검하는데 사용되는 값이며, χ²검증을 실시한다.

Wilks' lambda는 '집단내 분산 /(집단내 분산 + 집단간 분산)'의 비율로써, 집단간 분산이 클수록 '0'에 가까워지며 그 반대의 경우는 '1'에 가까워진다. 즉 wilks' lambda 값이 낮을수록 판별력이 높을 수 있음을 의미한다.

8. 표준화 정준판별함수 계수와 구조행렬

이 둘은 각 독립변수의 판별력 및 상대적중요도를 의미한다. 다만 표준화 정준판별함수 계수는 다중공선성으로 인하여 각 독립변수들의 판별력이 낮게 나타날 수 있으며 또한 불안정한 이유 때문에 구조행렬 상의 판별적재값(discriminant loading)을 많이 이용한다.

판별적재값이란 각 독립변수와 표준화 정준판별함수 계수 간의 상관관계를 나타내는 값으로, 보통 이 값이 ±0.4 이상이면 유의적(판별력이 있는 것)으로 받아들인다. 또한 판별적재값이 높을수록 판별력이 높은 것으로 해석할 수 있다.

cf. '표준화 정준판별함수 계수' 는 다중회귀분석의 '표준화 회귀계수'와 유사한 개념이다.

cf. 판별적재값은 요인분석에서의 요인적재값과 유사한 개념이다.

9. 분류함수 (Classification function)

새로운 분류대상을 어느 집단으로 분류할 것인가를 결정하는 데 사용되는 함수로써, Fisher's 선형판별함수 (linear discriminant function) 이라고도 부른다.

10. hit ratio

판별함수의 전반적 적합도를 점검하는 수단으로써, 판별함수가 조사대상을 얼마나 잘 분류할 수 있는가를 나타내며, 정확히 분류된 대상의 수를 전체 대상의 수로 나눈 비율이다.

cf. 다중회귀분석에서 F-검증에 의해 회귀식이 유의적인 것으로 판명되었다고 하더라도 R²가 높을수록 그 회귀식의 설명력이 높은 것으로 받아들이는 것과 유사하다.