27. 일원분산분석

지난 시간에는 12장의 마지막 부분인 'x² 적합도 검증' 에 대한 내용을 요약해보았다. (지난 시간의 요약내용은 아래 타이틀 하단의 '이전글' 을 통하여 확인할 수 있다)


이어서 이번 시간부터는 '제13장. 분산분석'의 일원분산분석, 무작위 블럭디자인, 이원분산분석(팩토리얼 디자인) 과 관련된 내용을 정리해볼텐데, 이번 시간에는 그 중 분산분석 전반에 대한 개념과 일원분산분석에 대하여 정리해보도록 하겠다. 


참고로 분산분석에서는 F-검증을 사용하는데, 이 F-검증은 x²검증이 결합된 형태이므로, x²검증과 분포표의 형태가 동일하고, x² 검증과 마찬가지로 F-검증에서도 대부분 우측검증만 한다고 보면 된다. 그리고 검증절차는 앞서 살펴본 다른 통계기법들과 동일하다.


그럼 일원분산분석 정리를 시작해보자.



--------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

--------------------------------------------------


 Theme 

일원분산분석

※처음글 - 1. 마케팅조사의 역할

※이전글 - 26. 적합도 검증





분산분석 (ANOVA: Analysis of variance)



1. 분산분석이란? 


각 모집단이 정규분포를 이루고, 분산이 같다는 가정 하에 두 개 이상의 집단들의 평균값을 비교하는데 사용하는 통계기법이면서, 어떤 실험변수에 여러 수준의 처치를 가하고 그 결과가 다르게 나타나는지를 보는 데도 자주 사용된다. 분산분석에서 검증통계량은 F이다.



2. 분산분석이 사용되는 경우


2-1. 척도의 구분 : 


처치변수(독립변수)의 척도가 비계량척도(명목ㆍ서열척도)이면서, 결과변수(종속변수)의 척도가 계량척도(간격ㆍ비율척도) 인 경우


2-2. 분산분석은 기본적으로 평균차이를 검증하기 위한 것인데, 모집단의 수에 따라 아래와 같이 구분된다.


2-2-1. 단일 모집단 : t-검증

2-2-2. 두 모집단 : t-검증

2-2-3. 모집단이 두 개 이상 (보통 3개) : F-검증



3. 분산분석의 종류


3-1. 일원분산분석 : 처치변수가 한 개인 경우로써, '두 모집단 평균차이검증'을 확장한 개념이다.


3-2. 무작위 블럭디자인 : 결과변수에 영향을 미치는 외생변수들을 블럭변수로 설정하고, 처치변수가 하나인 경우로써, '짝을 이룬 값들의 차이검증'을 확장한 개념이다.


3-3. 팩토리얼 디자인 : 처치변수가 두 개 이상인 경우로써, 처치변수가 2개이면 '이원분산분석', 3개이면 '삼원분산분석'이라고 한다.



4. 분산분석의 원리


두 개 이상의 모집단으로부터 표본을 추출한 경우, 집단간 분산이 클수록, 그리고 집단 내 분산이 작을수록 각 모집단 간의 평균값에는 차이가 있을 가능성이 높다. 분산분석은 이러한 논리에 바탕을 두고 분산값들을 분석함으로써 모집단 평균의 차이를 검증하는 통계기법이다.



5. 관련 용어


5-1. 처치변수 : 실험에서 처치가 가해지는 변수


5-2. 처치수준 : 처치변수에 가해지는 처치의 수준으로, 집단의 수를 결정짓는다.





일원분산분석 (One-way ANOVA)



1. 검증통계량 계산식 (분산분석표)



1-1. SST (Sum of Squares due to Treatment) : 집단간 제곱합(분산)


1-2. SSE (Sum of Squares due to Error) : 집단내 제곱합 - 표준오차의 개념이다.


1-3. Total SS (Total Sum of Squares) : 전체 제곱합


ex> 아래의 예시로 'F obs' 를 구해보자. 전체평균(X bar)은 '3.5' 이다.


 

처치수준 A 

처치수준 B 

처치수준 C 

 

1

2

3

 

4

5

6

 평균

 2.5

 3.5

 4.5


* SST = {2 * (2.5 - 3.5)²} + {2 * (3.5 - 3.5)²} + {2 * (4.5 - 3.5)²} = 4

* SST의 자유도 = k - 1 = 3 - 1 = 2

* MST = 4 / 2 = 2


* SSE = (1 - 2.5)² + (4 - 2.5)² + (2 - 3.5)² + (5 - 3.5)² + (3 - 4.5)² + (6 - 4.5)² = 13.5

* SSE의 자유도 = n - k = 6 - 3 = 3

* MSE = 13.5 / 3 = 4.5


* F obs = 2 / 4.5 = 0.44



2. 임계치 찾는 방법


* F crit = F (α : 집단간자유도, 집단내자유도) = F (α : k-1, n-k)


cf. 통계표(F-분포표) 에서 'v₁'이 집단간자유도를, 'v₂'가 '집단내자유도'를 의미한다.



3. 예제


Q) 각 교육프로그램에 따라 판매실적이 다르다고 할 수 있는가? (α = 0.05)


* 신입사원 28명을 무작위로 4그룹으로 나누어 교육프로그램 A, B, C, D로 교육 실시


* 교육 도중 5명이 탈락하고 교육을 마친 후 1주일 간의 장기구독 판매실적은 아래와 같다. 전체평균은 '77.34' 이다.


 

B

C

D

 

65

75 

59 

94 

 

87

69

78

89 

 

73

83

67

80 

 

79 

81 

62 

88 

 

81 

72 

83 

 

 

69 

79 

76 

 

 

 

90

 

 

 평균

75.67

78.43

70.83

87.75


cf. 전체평균은 '77.34' 이다.



A-1) 검증통계량이 기각역에 위치하는지 확인


Step 1) 가설설정 :


* H0 : μA = μB = μC = μD

* H1 : 모든 μ가 동일하지는 않다. 최소한 어느 둘 간에는 다를 것이다.


Step 2) 검증방법 : 일원분산분석 - F검증


Step 3) 검증통계량 계산 (분산분석표 제작)


* SST = {6 * (75.67 - 77.34)²} + {7 * (78.43 - 77.34)²} + {6 * (70.83 - 77.34)²} + {4 * (87.75 - 77.34)²} = 712.5

* SSE = (65 - 75.67)² + (87 - 75.67)² + .... + (80 - 87.75)² + (88 - 87.75)² = 1,196.6

* Total SS = SST + SSE = 712.5 + 1,196.6 = 1,909.1


원천 

제곱합(SS) 

d.f. 

평균제곱(MS) 

F obs 

처치 (집단간)

SST = 712.5 

4 - 1 = 3 

237.5 

3.77 

오차 (집단내)

SSE = 1,196.6 

23 - 4 = 19 

63 

 

합계

Total SS = 1,909.1 

22

 

 


Step 4) 통계표에서 임계치를 찾아 기각역 설정 : 


* F crit = F (0.05 : 3, 19) = 3.13

* 기각역 = F obs ≥ 3.13


Step 5) 귀무가설의 기각여부 결정 : 


F obs는 '3.77' 로 귀무가설은 기각된다. 따라서 모든 교육 프로그램의 효과가 동일하지는 않다고 할 수 있다. 즉, 최소한 어느 두 가지 프로그램 간에는 그 효과가 다르다고 할 수 있다.


A-2) p-value를 이용한 검증


Step 1, 2, 3) 'A-1' 과 동일


Step 4) 'F-분포표'에서 F obs 값에 대한 p-value 찾기 : 


F obs (3.77)은 분포표의 'v₁ = 3, v₂ = 19' 자유도 상에서 '3.13' 과 '5.01' 사이에 위치하므로 '0.01 < p-value < 0.05'이다.


Step 5) 귀무가설의 기각여부 결정 : 'α > p-value' 이므로 귀무가설은 기각된다.





A-3) SPSS 24에 의한 분석결과표 해석



* 분산분석은 각 모집단의 분산이 같다는 가정 하에 실시되는데, 위 표에서 Levene 의 통계량에 따른 p-value는 '0.330' 으로 'α = 0.05' 에서 분산이 같다는 귀무가설을 기각하지 못한다. 따라서 등분산 가정에 문제가 없다.


* 분산분석표에서 p-value 는 '0.028'로 나타나 'α = 0.05' 수준에서 'α > p-value' 이므로 귀무가설은 기각됨을 알 수 있다.



사후다중비교



위의 예처럼 귀무가설이 기각되어, 최소한 어느 두 집단 간에는 평균의 차이가 있다고 결론을 내렸을 때 어떠한 두 집단에서 차이가 있는지를 조사하기 위하여 아래와 같이 사후다중비교를 실시할 수 있다. 




1. 표의 해석


집단 간에 차이가 있다는 것은, 통계적 유의성이 있다는 의미이고, 통계적 유의성이 있다는 의미는 p-value가 유의수준(α) 보다 작다는 의미이다. 


그러므로 위 표에서  'α = 0.05' 작은 p-value를 찾아보면 porgram 'C'와 'D' 간의 차이가 유의적임을 알 수 있다. (* 표시가 되어 있다)



2. 사후다중비교 방법


2-1. Tukey법 : 각 'cell' 의 크기가 같은 경우만 사용할 수 있으며, 집단 간 차이를 가장 정밀하게 감지할 수 있다.


2-2. Scheffe법, Bonferroni법 : 각 'cell' 의 크기가 같거나 다르거나 상관없이 사용할 수 있다. 일반적으로는 Scheffe법을 더 많이 사용한다.


cf. 어떤 방법이라도 분석표를 해석하는 방법은 동일하다.


이 글을 공유하기

Designed by JB FACTORY