25. 교차분석 (독립성 검증)

지난 시간에는 12장의 여러 자료분석방법 중 두 모집단 비율차이 검증과 관련한 내용을 정리해보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)


이어서 이번 시간에는 교차분석 (x² 독립성 검증)에 대한 내용을 정리해보도록 할텐데, 교차분석은 여러 자료분석방법 중 변수 간 연관성 여부(서로 독립적인지 아닌지)를 분석하는 방법 중 명목척도로 측정된 자료를 분석할 때 사용하는 방법이다. 


참고로 이 교차분석을 학습할 때에는 교차표 내의 관측빈도와 기대빈도를 직접 계산하여 교차표를 만들어보고, x² obs 값도 공식을 이용하여 직접 한 번 구해보기를 권장한다. 또한 연관성 여부를 분석하는 방법 중 서열척도로 측정된 자료는 '스피어만 서열상관분석' 을, 간격(등간)척도와 비율척도로 측정된 자료는 '상관분석' 을 사용한다는 점도 다시 한 번 기억을 되새겨보자.



-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------


 Theme 

교차분석 (x² 독립성 검증)

※처음글 - 1. 마케팅조사의 역할

※이전글 - 24. 두 모집단 비율차이 검증





검증통계량 직접 계산



1. 검증통계량 계산식



cf. x²검증 및 F분포는 양측검증이 존재하기는 하지만, 거의 대부분 우측검증만 한다.





2. 예제


Q) 아래 자료에 의해 가족규모에 따라 구매하는 세탁기의 크기가 다르다고 할 수 있는가? (α = 0.05)


* 가족규모에 따라 구매하는 세탁기의 크기가 다른지를 알기 위하여 300명의 주부들을 대상으로 다음과 같은 질문을 하였다.


① 귀하의 가족은 모두 몇 명입니까?

1~2명 (     )     3~4명 (     )     5명 이상 (     )


② 귀하 가정의 세탁기는 다음 중 어디에 해당합니까?

소형 (     )     중형 (     )     대형 (     )


* 위 질문의 응답자료로 아래와 같은 교차표(cross table)을 만들었다.


세탁기

크기 

가족규모 

1~2명

3~4명 

5명 이상 

합계 

소형

25 (9.33)

37 (32.67)

8 (28.00)

70 

중형 

10 (16.67)

62 (58.33)

53 (50.00)

125 

대형 

5 (14.00)

41 (49.00)

59 (42.00)

105 

합계 

40 

140 

120 

300 


cf. 하나의 셀 안에는 관측빈도와 기대빈도가 같이 기재되어 있다. 괄호 안에 있는 수치가 기대빈도이다.


A-1) 검증통계량이 기각역에 위치하는지 확인


Step 1) 가설설정 : 


* H0 : 가족규모와 세탁기는 독립적이다. (가족규모와 세탁기의 크기 간 연관성은 없다)

* H1 : 가족규모와 세탁기는 독립적이지 않다. (가족규모와 세탁기의 크기 간 연관성이 있다)


Step 2) 검증방법 결정 : 교차분석 - x²검증


Step 3) 기대빈도의 계산 : 기대빈도 = (열의 합계 * 행의 합계) / 전체 합계


cf. 이 식으로 계산하면 위 표의 괄호 안에 있는 숫치들을 구할 수 있다. 예를 들어 가족 수가 1~2명이고 소형 세탁기를 쓰는 경우의 기대빈도는 '(70 * 40) / 300 = 9.33'가구가 된다.


Step 4) 검증통계량 계산 : 


x² obs = {(25 - 9.33)² / 9.33} + {(10 - 16.67)² / 16.67)} + {(5 - 14)² / 14)} + ....... + {(59 - 42)² / 42)} = 58.21


Step 5) 통계표에서 임계치를 찾아 기각역 설정 : x² crit x² (0.05 : 4) = 9.48


cf. 앞서도 언급하였지만 x²검증의 경우는 거의 대부분만 우측검증만 하기 때문에, 별 다른 언급이 없는 경우는 우측검증을 가정하고 문제를 풀면 되므로 '0.05'와 자유도는 '(3 - 1) * (3 - 1) = 4' 가 된다.


Step 6) 귀무가설의 기각여부 결정 : 


기각역은 'x² obs ≥ 9.48' 로써, x² obs 가 '58.21' 이므로 귀무가설은 기각된다. 따라서 가족규모와 세탁기 크기 간 연관성이 있다고 볼 수 있다.


A-2) p-value로 검증


Step 1, 2, 3, 4) 'A-1' 과 동일


Step 5) 통계표에서 x² obs 에 해당하는 p-value 찾기 : p-value < 0.005


cf. x² 분포표에서 자유도 4에서의 가장 큰 x² 값이 '14.8602' 이므로 x² obs 값이 58.21인 경우는 이보다 더 크게 된다. 즉, p-value는 더 작게된다.


Step 6) 귀무가설의 기각여부 결정 : 'α > p-value' 이므로 귀무가설은 기각된다.





추가검증) 관계의 크기


교차분석을 통하여 연관성이 있다는 결론을 내릴 수 있는 경우, 두 변수 간 관계의 크기는 아래의 분할계수 (Contingency 계수)를 이용하여 평가할 수 있다.


Step 1) 분할계수 최고값을 아래 공식으로 구하여, 분할계수 범위를 확인해본다. 



이 식에서 q는 행의 수와 열의 수 중 작은 값을 가리킨다. 위의 예제로 살펴보면 '√2/3 = 0.816' 이 된다.

분할계수의 최저값은 0이므로, 위 예제의 경우는 0 ~ 0.816의 범위를 갖는다고 볼 수 있다.


Step 2) 분할계수를 아래 공식으로 구하여 범위 중 어느 정도에 위치하는지 확인한다.



위의 예제로 살펴본다면, 'C = √58.21/300+58.21 = 0.403' 이 된다. 


Step 3) 관계의 크기 해석 : 분할계수는 0에서 0.816 범위 중에서 0.403 값을 가지므로, 두 변수의 연관성은 중간 정도라고 할 수 있다.




SPSS 24에 의한 분석결과 해석



아래 표는 위의 예제에 대한 SPSS 프로그램의 분석결과표이다.



분석결과표 '카이제곱 검증'표에서 'Pearson 카이제곱 값'이 x² obs 값이고, '근사 유의확률(전근 유의확률)'이 p-value를 의미한다. 그리고 아래 '대칭적 측도' 에서 '분할계수' 값도 확인할 수 있다.


이 글을 공유하기

Designed by JB FACTORY