30. 상관분석

지난 시간에는 '제13장. 분산분석' 중 마지막 파트인 '팩토리얼 디자인 - 이원분산분석' 에 대한 내용을 요약해보았다. (지난 시간의 요약내용은 아래 타이틀 하단의 '이전글' 을 클릭하여 확인할 수 있다)


이어서 이번 시간에는 '제14장. 상관분석과 회귀분석' 중 '상관분석'에 대한 주요내용을 정리해보도록 할텐데, '상관분석'은 간격척도(등간척도) or 비율척도로 측정된 두 변수 간의 연관성 여부를 분석하는 방법이며, 서열척도로 측정된 경우의 연관성 분석은 '스피어만 서열 상관분석' 으로, 명목척도로 측정된 경우의 연관성 분석은 '교차분석' 으로 분석하였음을 기억해야겠다.


참고로 경영지도사 2차 마케팅조사 시험에서 이 상관분석과 회귀분석은 매우 자주 출제되는 편이므로, 이 시험을 준비하고 있는 분들이라면 주의 깊게 확인해야할 부분이다.


그럼 시작해보자.



-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------


 Theme 

상관분석

※처음글 - 1. 마케팅조사의 역할

※이전글 - 29. 팩토리얼 디자인 - 이원분산분석





상관분석(Correlation analysis)의 개념



1. 상관관계의 종류


1-1. 정(正_positive)의 선형관계 : x가 커지면 y도 커지는 관계.


1-2. 부(負_negative)의 선형관계 : x가 커지면 y가 작아지는 관계.


1-3. 곡선관계(curvilinear relationship) : x가 커지면 y가 증가하다가 감소하는 등의 곡선을 나타내는 관계.



2. 상관분석 목적 : 상관분석은 두 변수의 관계에서 일반적으로 선형관계에 초점을 두고 있다. 다만 원인이 무엇인지에 대해서는 관심이 없다.


2-1. 선형관계를 갖는지.


2-2. 어느 방향인지.


2-3. 관계의 크기가 얼마나 큰지.



3. 상관계수 : 상관관계의 크기를 나타내는 값이며 -1부터 +1 사이의 값을 갖는다.


3-1. '+1'에 가까울수록 정(正)의 방향으로 크다.


3-2. '-1' 에 가까울수록 부(負)의 방향으로 크다.


3-3. '0' 이면 상관관계가 전혀 없음을 의미한다.



4. Pearson 상관계수 (Pearson product-moment correlation coefficient)


두 변수가 각각 간격척도 or 비율척도로 측정된 경우의 상관관계를 나타낸다. 보통, 상관계수라고 하면 Pearson 상관계수를 의미하며, 모집단의 상관계수는 'ρ'로 나타내며 'rho' 로 읽는다. 표본의 상관계수는 'r'로 나타낸다.





상관분석



1. 상관계수 계산식




2. 검증통계량 계산식




3. 예제


Q) 아래 광고비와 매출액 자료에 의해 광고비와 매출액 간에 상관관계가 있다고 할 수 있는가? (α = 0.05)


광고비(X)

매출액(Y)

1.2 

101 

0.8 

92 

1.0 

110 

1.3 

120 

0.7 

90 

0.8 

82 

1.0 

93 

0.6 

75 

0.9 

91 

10 

1.1 

105 

평균 

0.94 

95.90 

※단위 : 억원


A-1) 검증통계량이 기각역에 위치하는지 확인


Step 1) 표본의 상관계수 계산


* SSx = (1.2 - 0.94)² + (0.8 - 0.94)² + (1.0 - 0.94)² + ..... + (1.1 - 0.94)² = 0.444


* SSy = (101 - 95.9)² + (92 - 95.9)² + (110 - 95.9)² + ..... + (105 - 95.9)² = 1,600.9


* SSxy = {(1.2 - 0.94) * (101 - 95.9)} + {(0.8 - 0.94) * (92 - 95.9)} + ..... + {(1.1 - 0.94) * (105 - 95.9)} = 23.34


* r = 23.34 / √0.444*1,600.9 = 0.875


Step 2) 상관계수의 통계적 유의성 검증을 위한 가설설정 : H0 : ρ = 0 ㅣ H1 : ρ ≠ 0 (양측검증)


Step 3) 검증통계량 계산 : t obs = 0.875 * √10-2 / √1-0.875² = 5.12


Step 4) 't-분포표' 에서 임계치를 찾아 기각역 설정 : t crit = t (0.025 : 8) = 2.306


Step 5) 귀무가설의 기각여부 결정 : 


'ㅣt obsㅣ > t crit ' 이므로 귀무가설은 기각된다. 따라서 광고비와 매출액 간에는 상관관계가 있다는 결론을 내릴 수 있다.


A-2) p-value로 검증


Step 1, 2, 3) 'A-1' 과 동일


Step 4) 't-분포표' 에서 t obs 값에 대한 p-value 찾기 : 


양측검증이므로 p/2 < 0.005 이고, 'p-value < 0.01' 이된다.


Step 5) 귀무가설의 기각여부 결정 : 'α ≥ p-value' 이므로 귀무가설은 기각된다.


A-3) 만약 광고비와 매출액 간 정(正)의 상관관계가 있는지를 검증하고자 한다면?


* 가설설정 : H0 : ρ = 0 ㅣ H1 : ρ > 0 (우측검증)


* t crit = t (0.05 : 8) = 1.86


'ㅣt obsㅣ > t crit ' 이므로 귀무가설은 기각된다. 따라서 광고비와 매출액 간에는 정(正)의 상관관계가 있다고 할 수 있다.




통계적 유의성과 실제적 유의성



위 검증통계량 계산식에서 n이 분자에 있으므로 표본의 크기가 크면 상관계수의 절대값이 작더라도 통계적으로 유의적으로 나타날 수 있다. 


이런 경우 통계적으로는 유의적으로 나타났으나, 상관계수가 낮으므로 실제적으로도 유의적이라고 주장하기는 어렵다. 따라서 아래와 같은 실제적유의성 판단기준이 필요하다. 


상관계수의 범위 

상관관계의 크기

±0.81 ~ ±1.00

매우 강함

±0.61 ~ ±0.80

강함

±0.41 ~ ±0.60

어느정도 있음

±0.21 ~ ±0.40

약함

±0.00 ~ ±0.20

매우 약함


위의 예에서는 상관계수가 '0.875' 로 나타났으므로 상관관계의 크기가 매우 강한 편이라고 볼 수 있다.


이 글을 공유하기

Designed by JB FACTORY