32. 다중회귀분석

지난 시간에는 '제14장. 상관분석과 회귀분석' 중 '단순회귀분석'에 대한 내용을 정리해보았다. (지난 시간의 정리내용은 아래 타이틀 하단의 '이전글'을 클릭하여 확인할 수 있다)


이어서 이번 시간에는 14장의 마지막 파트인 '다중회귀분석'의 서브노트를 정리해보도록 할텐데, 지난 시간에 정리한 '단순회귀분석'이 하나의 독립변수와 종속변수 간의 관계에 대하여 분석했다면, '다중회귀분석'은 두 개 이상의 독립변수와 종속변수 간의 관계를 분석하는 기법으로 '단순회귀분석'을 확장한 것이라고 할 수 있다.


한 편, '다중회귀분석'에서는 회귀식의 발견과 결정계수 계산, 회귀식의 검증 등에 필요한 계산과정이 매우 복잡하여 교재에서도 계산식이나 과정은 생략하였고, 경영지도사 2차 시험에서도 계산 문제가 출제되기 보다는 SPSS 24에 의한 다중회귀 분석결과표를 해석하는 쪽으로 출제될 가능성이 높으니 이에 대비하여 학습하는 것이 좋겠다.


그럼 이번 시간도 시작해보자!



--------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

--------------------------------------------------


 Theme 

다중회귀분석

※처음글 - 1. 마케팅조사의 역할

※이전글 - 31. 단순회귀분석





다중회귀분석(Multiple regression analysis) 의 주요 개념



1. 회귀분석의 가정


다중회귀분석을 위해서는 아래와 같은 가정이 필요하다. 이 가정의 필요성은 단순회귀분석에서도 적용된다.


1-1. 독립변수와 종속변수 간의 선형성 가정 : 회귀식에서 X의 모든 범위에 걸쳐 기울기가 일정하다는 것을 가정.


1-2. 오차의 정규성 가정 : 오차들이 평균 '0'의 정규분포를 따른다는 가정.


cf. 회귀분석에서의 오차란 종속변수의 관측치와 추정치 간의 차이를 의미한다.


1-3. 오차의 등분산 가정 : 오차들의 분산은 X의 모든 값이 걸쳐 일정하다는 가정.


1-4. 오차의 독립성 가정 : 종속변수 추정치(y hat)의 변화에 따라 오차들이 어떠한 패턴을 가져서는 안된다는 가정.



2. 다중회귀식의 추정방식


2-1. 동시입력방식


2-1-1. 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함시켜 분석하는 방식.


2-1-2. 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있다.


cf. 이하에서 소개되는 예시는 동시입력방식을 이용하여 분석한 것이다.


2-2. 단계입력방식


2-2-1. 설명력이 높은 변수의 순으로 회귀식에 포함시키는 방식.


2-2-2. 종속변수를 설명하는데 설명력이 어느 정도 이상 되는 변수들로만 구성된 회귀식을 발견하고자 할 때 사용하는 방식이다.



3. R²과 R² adjust


3-1. 결정계수(R²) : 단순회귀분석에서의 결정계수와 동일하다.


3-2. 조정된 R제곱(R² adjust) 


3-2-1. R²는 회귀식에 독립변수가 추가됨으로써 점차 커진다.


3-2-2. 하지만 R²를 약간 증가시키기 위하여 독립변수가 추가되는 것은 여러 측면에서 낭비이다.


3-2-3. 'R² adjust' 는 이러한 점을 고려한 것으로 R²를 독립변수의 수와 표본의 크기로 조정한 것으로써, 새로이 추가되는 변수의 추가적 설명력이 매우 작은 경우 R²는 조금 증가하더라도 R² adjust는 오히려 감소한다. 





4. 다중공선성


4-1. 공선성 (Collinearity) : 


단순회귀분석을 했을 때 독립변수의 계수가 유의적이더라도, 다중회귀분석을 하는 경우 비유의적으로 나타날 수 있는데, 이러한 현상은 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생한다.


4-2. 다중공선성 (Multicollinearity) : 독립변수가 3개 이상인 경우의 공선성.


4-2-1. 예시 : 아파트 가격을 종속변수로, 방의 수와 평수를 각각 독립변수로 하는 다중회귀분석을 하는 경우, 두 독립변수들은 높은 상관관계를 가지며 이 때 두 변수들 중 한 변수의 계수는 비유의적으로 나타날 가능성이 높다.


4-2-2. 다중회귀식을 발견하여 종속변수의 값을 예측하는데 유일한 목적이 있다면 다중공선성은 문제되지 않는다.


4-2-3. 하지만 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느 정도 영향을 미치는지를 조사하는데 있다면 다중공선성에 유의해야 한다.


4-3. 공차 (Tolerance) 


4-3-1. 한 독립변수를 종속변수로 두고, 다중회귀분석을 하였을 때 이 종속변수의 분산이 다른 모든 독립변수들에 의해 설명되지 않는 정도를 의미하며, 'TOL i = 1 - Ri²' 으로 표시된다.


4-3-2. 공차가 작을수록 다중공선성이 높다Ri² 클수록 다중공선성이 높다. (Ri² 이 클수록 종속변수로 대체된 독립변수가 다른 독립변수들에 의해 설명되는 정도가 크다. 즉 상관관계가 높다)


4-3-3. 공차는 0에서 1사이의 값을 갖는다.


4-4. 분산팽창요인 (VIF)


4-4-1. 공차의 역수값으로 'VIF = 1 / TOL i'로 표시된다.


4-4-2. 'VIF' 는 클수록 공선성이 높다.



5. 과적합 (overfitting)


표본의 크기가 작아 R²가 부당하게 높게 나타나는 현상을 의미한다. 


cf. 표본값들이 일직선상에 위치하면 오차가 없으므로 'r²=1' 이 된다. 이 때 표본의 크기가 2이면 일직선이 되며 'r²=1' 이 된다.



6. 더미변수 (dummy variable)


회귀분석의 입력자료는 대개 간격척도나 비율척도로 측정된 것인데, 경우에 따라서는 명목척도로 측정한 변수를 독립변수로 하여 분석할 필요가 있다. 이러한 변수를 더미변수라고 하고, 더미변수의 수는 범주의 수에서 1을 뺀 것이다.




다중회귀분석의 SPSS output 해석



Q) 아래 TV 시청관련 자료의 다중회귀분석결과표를 해석하여, 동거여부, 연령 및 교육기간이 각각 TV시청시간에 어떤 영향을 미치는지 조사하시오. (α = 0.05)


* 65세 이상 시청자들을 위한 TV프로그램 개발을 위하여 조사.

* 25명의 시청자들을 대상으로 설문조사하였다.


* Y = 일일 평균 TV 시청시간

* X₁ = 배우자와의 동거여부 (명목척도로 측정된 자료이며, 더미변수이다)

* X₂ = 연령

* X₃ = 교육기간(연수)





Step 1) 회귀식의 발견 : 위 '계수표'의 비표준화계수(β) 을 이용해서 만들 수 있다.


* Y hat = 1.495 - 1.176X₁ + 0.039X₂ - 0.152X₃


* 회귀식의 해석 : 


- 동거를 하는 경우 TV 시청시간은 일 평균 1.176시간 적을 것이다.

- 연령이 1 증가할수록 TV 시청시간도 일 평균 0.039 시간씩 증가할 것이다.

- 교육기간이 1년씩 길수록 TV 시청시간은 일 평균 0.152 시간씩 감소할 것이다.


cf. 다중회귀분석에서도 단순회귀분석과 마찬가지로 주어진 자료의 X값의 범위 내에서만 Y값을 예측할 수 있다.





Step 2) 회귀식의 설명력 확인회귀식의 설명력은 '모형 요약' 의 'R 제곱' 값을 통하여 확인할 수 있다. 


* 결정계수(R²) 값이 '0.626'으로 나타났으므로, 종속변수의 분산 중 62.6%가 독립변수들에 의해 설명이 될 수 있음을 확인할 수 있다.


* 참고로 R² adjust (조정된 R 제곱)는 '0.572'로 R² 보다 작게 나타났다.



Step 3) 회귀식 및 R²의 통계적 유의성 검증


3-1) 가설설정


* H0 : β₁ = β₂ = β₃ = 0

* H1 : β₁, β₂, β₃  중 적어도 어느 하나는 0이 아니다.


3-2) 검증통계량 : F-검증 (동시 검증)


cf. 검증통계량(분산분석표) 참고



3-3) 귀무가설의 기각여부 결정 : '분산분석표'에서 회귀식의 유의확률(p-value)을 확인하면 된다.


* p-value가 '0.000' 으로 나타났으므로, 귀무가설은 기각된다. 따라서 위에서 발견한 회귀식은 통계적으로 유의적이며, TV시청시간을 설명하고 예측하는데 유용하다고 할 수 있다. 또한 결정계수도 검증이 되었다.



Step 4) 개별 독립변수 계수의 통계적 유의성 검증


4-1) 가설설정


H0 : β₁ = 0 or β₂ = 0 or β₃ = 0

* H1 : β 0 or β₂  0 or β₃  0


4-2) 검증통계량 : t-검증 (개별 검증)


4-3) 귀무가설의 기각여부 결정 : '계수표' 에서 각 독립변수의 '유의확률' 값 확인.


* 다른 두 변수가 회귀식에 존재하는 경우 동거여부와 교육기간의 계수는 유의적이다.

* 다른 두 변수가 회귀식에 존재하는 경우 연령의 계수는 유의적이지 않다.


cf. SPSS output은 양측검증 경우의 유의확률을 나타내므로, 단측검증인 경우는 반으로 나누어준다. 또한 단측검증인 경우는 회귀계수의 방향이 연구가설과 같은지를 확인해야한다.


ex> '교육기간이 길수록 TV 시청시간이 적어진다' 로 가설설정한 경우 β₃ 값은 마이너스로 나타나야 한다.



Step 5) 독립변수들의 상대적 영향력 비교 : '계수표'의 표준화계수의 절대값이 클수록 상대적 영향력이 높다.


* 위 분석결과에서는 동거여부의 표준화계수의 절대값이 가장 높으므로 독립변수 중 TV시청시간에 미치는 영향력이 가장 높다고 볼 수 있다.


cf. 표준화계수란? : 각 회귀계수는 단위가 다를 수 있으므로, 입력자료를 표준화시켜 분석한 것이다.



Step 6) 다중공선성 확인 : '계수표'의 공선성 통계량의 공차와 VIF 확인.


* 공차는 낮을수록, VIF는 높을수록 다중공선성이 높은 것이므로, 세 독립변수 중 '연령' 의 다중공선성이 가장 높다고 할 수 있다. 다만 공차의 최소값인 0에 비해 상당히 큰 편이므로 다중공선성이 심각한 상태는 아니라고 할 수 있다.


이 글을 공유하기

Designed by JB FACTORY