25. 교차분석 (독립성 검증)
- 평생학습관/경영지도사 2차
- 2017. 5. 8. 01:00
지난 시간에는 12장의 여러 자료분석방법 중 두 모집단 비율차이 검증과 관련한 내용을 정리해보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)
이어서 이번 시간에는 교차분석 (x² 독립성 검증)에 대한 내용을 정리해보도록 할텐데, 교차분석은 여러 자료분석방법 중 변수 간 연관성 여부(서로 독립적인지 아닌지)를 분석하는 방법 중 명목척도로 측정된 자료를 분석할 때 사용하는 방법이다.
참고로 이 교차분석을 학습할 때에는 교차표 내의 관측빈도와 기대빈도를 직접 계산하여 교차표를 만들어보고, x² obs 값도 공식을 이용하여 직접 한 번 구해보기를 권장한다. 또한 연관성 여부를 분석하는 방법 중 서열척도로 측정된 자료는 '스피어만 서열상관분석' 을, 간격(등간)척도와 비율척도로 측정된 자료는 '상관분석' 을 사용한다는 점도 다시 한 번 기억을 되새겨보자.
-------------------------------------------------
Written by 행복을만드는전략가
독한 세상에서 행복을 만드는 전략과 정보
-------------------------------------------------
Theme
교차분석 (x² 독립성 검증)
※처음글 - 1. 마케팅조사의 역할
※이전글 - 24. 두 모집단 비율차이 검증
검증통계량 직접 계산
1. 검증통계량 계산식
cf. x²검증 및 F분포는 양측검증이 존재하기는 하지만, 거의 대부분 우측검증만 한다.
2. 예제
Q) 아래 자료에 의해 가족규모에 따라 구매하는 세탁기의 크기가 다르다고 할 수 있는가? (α = 0.05)
* 가족규모에 따라 구매하는 세탁기의 크기가 다른지를 알기 위하여 300명의 주부들을 대상으로 다음과 같은 질문을 하였다.
① 귀하의 가족은 모두 몇 명입니까?
1~2명 ( ) 3~4명 ( ) 5명 이상 ( )
② 귀하 가정의 세탁기는 다음 중 어디에 해당합니까?
소형 ( ) 중형 ( ) 대형 ( )
* 위 질문의 응답자료로 아래와 같은 교차표(cross table)을 만들었다.
세탁기 크기 |
가족규모 |
|||
1~2명 |
3~4명 |
5명 이상 |
합계 |
|
소형 |
25 (9.33) |
37 (32.67) |
8 (28.00) |
70 |
중형 |
10 (16.67) |
62 (58.33) |
53 (50.00) |
125 |
대형 |
5 (14.00) |
41 (49.00) |
59 (42.00) |
105 |
합계 |
40 |
140 |
120 |
300 |
cf. 하나의 셀 안에는 관측빈도와 기대빈도가 같이 기재되어 있다. 괄호 안에 있는 수치가 기대빈도이다.
A-1) 검증통계량이 기각역에 위치하는지 확인
Step 1) 가설설정 :
* H0 : 가족규모와 세탁기는 독립적이다. (가족규모와 세탁기의 크기 간 연관성은 없다)
* H1 : 가족규모와 세탁기는 독립적이지 않다. (가족규모와 세탁기의 크기 간 연관성이 있다)
Step 2) 검증방법 결정 : 교차분석 - x²검증
Step 3) 기대빈도의 계산 : 기대빈도 = (열의 합계 * 행의 합계) / 전체 합계
cf. 이 식으로 계산하면 위 표의 괄호 안에 있는 숫치들을 구할 수 있다. 예를 들어 가족 수가 1~2명이고 소형 세탁기를 쓰는 경우의 기대빈도는 '(70 * 40) / 300 = 9.33'가구가 된다.
Step 4) 검증통계량 계산 :
x² obs = {(25 - 9.33)² / 9.33} + {(10 - 16.67)² / 16.67)} + {(5 - 14)² / 14)} + ....... + {(59 - 42)² / 42)} = 58.21
Step 5) 통계표에서 임계치를 찾아 기각역 설정 : x² crit = x² (0.05 : 4) = 9.48
cf. 앞서도 언급하였지만 x²검증의 경우는 거의 대부분만 우측검증만 하기 때문에, 별 다른 언급이 없는 경우는 우측검증을 가정하고 문제를 풀면 되므로 '0.05'와 자유도는 '(3 - 1) * (3 - 1) = 4' 가 된다.
Step 6) 귀무가설의 기각여부 결정 :
기각역은 'x² obs ≥ 9.48' 로써, x² obs 가 '58.21' 이므로 귀무가설은 기각된다. 따라서 가족규모와 세탁기 크기 간 연관성이 있다고 볼 수 있다.
A-2) p-value로 검증
Step 1, 2, 3, 4) 'A-1' 과 동일
Step 5) 통계표에서 x² obs 에 해당하는 p-value 찾기 : p-value < 0.005
cf. x² 분포표에서 자유도 4에서의 가장 큰 x² 값이 '14.8602' 이므로 x² obs 값이 58.21인 경우는 이보다 더 크게 된다. 즉, p-value는 더 작게된다.
Step 6) 귀무가설의 기각여부 결정 : 'α > p-value' 이므로 귀무가설은 기각된다.
추가검증) 관계의 크기
교차분석을 통하여 연관성이 있다는 결론을 내릴 수 있는 경우, 두 변수 간 관계의 크기는 아래의 분할계수 (Contingency 계수)를 이용하여 평가할 수 있다.
Step 1) 분할계수 최고값을 아래 공식으로 구하여, 분할계수 범위를 확인해본다.
이 식에서 q는 행의 수와 열의 수 중 작은 값을 가리킨다. 위의 예제로 살펴보면 '√2/3 = 0.816' 이 된다.
분할계수의 최저값은 0이므로, 위 예제의 경우는 0 ~ 0.816의 범위를 갖는다고 볼 수 있다.
Step 2) 분할계수를 아래 공식으로 구하여 범위 중 어느 정도에 위치하는지 확인한다.
위의 예제로 살펴본다면, 'C = √58.21/300+58.21 = 0.403' 이 된다.
Step 3) 관계의 크기 해석 : 분할계수는 0에서 0.816 범위 중에서 0.403 값을 가지므로, 두 변수의 연관성은 중간 정도라고 할 수 있다.
SPSS 24에 의한 분석결과 해석
아래 표는 위의 예제에 대한 SPSS 프로그램의 분석결과표이다.
분석결과표 '카이제곱 검증'표에서 'Pearson 카이제곱 값'이 x² obs 값이고, '근사 유의확률(전근 유의확률)'이 p-value를 의미한다. 그리고 아래 '대칭적 측도' 에서 '분할계수' 값도 확인할 수 있다.
이 글을 공유하기