16. 관련용어정리 - 신뢰수준, 유의수준, 오차범위, 분산, 표준편차

지난 시간에는 '제10장. 표본추출' 중 표본추출의 의미와 관련 용어, 표본추출의 절차와 방법에 대한 내용을 요약해 보았다. (지난 시간의 요약 내용은 아래 타이틀 하단의 '이전글'을 통하여 확인할 수 있다)


이어서 이번 시간에는 10장의 나머지 부분인 표본의 크기 결정과 관련한 내용을 정리할 차례인데, 이 부분부터 통계 파트에 접어들기 때문에 관련된 용어들의 개념에 대하여 우선 정리해본 후 이어서 정리해 나가도록 하겠다. 


참고로 아래 요약한 내용에 대하여 이해가 부족한 경우는 통계 부분을 이해하기 힘들 수도 있으니 각자 잘 정리하도록 해야겠다.


그럼 시작해보자!



--------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

--------------------------------------------------


 Theme 

관련용어정리 - 신뢰수준, 유의수준, 오차범위, 분산, 표준편차

[평생학습관/마케팅조사] - 1. 마케팅조사의 역할

[평생학습관/마케팅조사] - 15. 표본추출





1. 구간 추정


1-1. 개념 : 표본조사를 통하여 신뢰수준에 따라 모집단의 평균값이 있을만한 구간을 추정하는 것을 의미한다.


1-2. 관련 용어




ex> 대선 지지도 여론조사 결과 P후보의 지지율이 40%였다. (신뢰수준은 95%, 오차범위는 ±3%)


 * 해석 : 

이와 동일한 조사를 100번 한다면, P후보의 지지율이 100번 중 95번은 37%~43% 사이에 있을 것이지만, 나머지 5번은 37%~43% 범위를 벗어날 수 있다.




1-2-1. 신뢰수준


동일한 조사를 100번 하면 동일한 결과가 나올 확률을 의미한다. 위의 예에서는 신뢰수준이 95%이니, 100번 중 95번은 같은 결과가 나올 것이라 추정하는 것이다.


cf. 신뢰수준은 90%, 95%, 99%가 흔히 사용된다. 그 중 95%가 가장 많이 사용됨.


cf. 신뢰수준에 대한 Z값은 90%(1.645), 95%(1.96), 99%(2.575)이며, 표본 크기를 구할 때 사용될 수 있으므로 암기해 놓는 것이 좋다.


1-2-2. 오차범위 (허용오차)


조사결과에서 오차가 발생할 수 있는 값의 범위를 의미한다. 위의 예에서는 오차범위가 ±3%이니, P후보의 지지율은 37%~43% 사이일 것이라 추정하는 것이다.


1-2-3. 유의수준 (허용유의확률) :

 

오차가 발생할 가능성을 의미한다. 위의 예에서는 신뢰수준이 95%였으니, 유의수준은 나머지 5%이다. 만약, 신뢰수준이 99%라면 유의수준은 1%가 된다.


cf. 가설 검증 시에는 표본통계량이 일정한 기각역에 속할 확률을 의미한다.





2. 이산확률변수와 연속확률변수


2-1. 이산확률변수 : 확률변수가 가질 수 있는 변수 값이 한정되어 있음. 


2-2. 연속확률변수 : 확률변수가 가질 수 있는 변수 값이 무한함.


ex> 대한민국 성인 남성의 평균 키 (키는 170.00033039221 와 같이 무한하게 연속되는 변수이다)


2-2-1. 이 때, 연속확률변수가 특정한 값을 가질 수 있는 확률은 '1/무한대' 이므로 '0'이다.


2-2-2. 그러므로 특정한 값이 아니라 특정 범위(구간) 내의 값을 가질 확률을 계산한다. 이 때 이 구간(면적)을 표현한 함수를 확률밀도함수라고 한다.




3. 정규분포


확률밀도함수는 계산식이 매우 복잡하고, 분포마다 값이 서로 달라지므로 매 번 복잡한 계산을 수행해야 하는 문제가 있는데, 문제를 해결하기 위한 방법이 정규분포를 이용하는 방법이다.


정규분포는 평균이 0이고, 분산이 1(100%)이며, 각 분포마다 서로 다른 단위의 값들을 표준화된 값(Z값)으로 통계량을 전환시켜주는 방식을 통하여 간편하게 확인할 수 있는 방법이다. (표준화된 범위와 그에 따른 확률 값이 미리 계산되어 있음)


정규분포의 형태는 평균을 중심으로 양쪽이 대칭인 종 모양의 분포이며, 표본의 수가 증가할 수록 더욱 이런 형태를 띄게 된다.





4. 평균, 편차, 분산, 표준편차



ex> 1+2+3+4+5 = 15



4-1. 평균 = 1+2+3+4+5 ÷ 5 = 3


4-2. 편차


평균으로부터 통계량이 떨어진 거리로써 (통계량 - 평균)이다.


cf. 즉, 위의 예로 표현한다면 (1-3)+(2-3)+(3-3)+(4-3)+(5-3) ÷ 5 = 0 ÷ = 0 이다.


4-3. 분산 (σ²)


편차로 계산하면 음수 때문에 0이 나올 수 밖에 없어, 떨어진 거리를 알 수 없다. 그래서 음수가 나오지 않도록 모두 제곱하여 양수가 되도록 한다.


cf. 즉, 위의 예로 표현한다면 (1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)² ÷= 2


4-4. 표준편차 (σ) 


분산은 제곱하여 구한 값이므로, 그 값에 루트(√)를 씌워서 다시 제곱 전의 값으로 되돌려준다. 이 표준편차가 바로 평균으로부터 평균적으로 떨어져 있는 거리이다.


cf. 즉, 위의 예로 표현한다면 √2 = 1.414 가 나오는데, 통계량들이 평균으로부터 평균적으로 1.414 정도 떨어져 있는 것으로 해석할 수 있다.


이 글을 공유하기

Designed by JB FACTORY