18. 통계학의 종류와 표본추출분포

지난 시간에는 '제10장. 표본추출'의 내용 중 표본의 크기 결정과 관련한 내용을 요약해보았다. (지난 시간의 요약내용은 아래 타이틀 하단의 '이전글'을 통해서 확인할 수 있다)


이어서 이번 시간에는 '제11장. 자료분석의 준비와 기초통계' 의 내용 중 자료분석의 준비 및 통계학의 종류, 관련 용어, 추정의 오류진단과 표본추출분포에 대한 내용을 정리해볼텐데, 이 11장은 이후에 등장할 '통계 부분', 즉 전체 마케팅절차 중 '자료분석방법'에 해당하는 내용을 명확하게 이해할 수 있느냐 없느냐에 대한 기로에 해당되는 부분이라고 할 수 있다.


그러니 주요 개념들은 반드시 명확하게 이해를 하고 넘어가야 할 부분이니, 혹시 이해가 가지 않는 부분이 있다면 다른 교재나 인터넷 검색 등을 통하여 꼭 이해하고 넘어가도록 하자.



-------------------------------------------------

Written by 행복을만드는전략가

독한 세상에서 행복을 만드는 전략과 정보

-------------------------------------------------


 Theme 

통계학의 종류와 표본추출분포

처음 - 1. 마케팅조사의 역할

이전글 - 17. 표본크기의 결정





자료분석의 준비



1. 자료의 타당성 점검


1-1. 자료의 타당성이란? : 서베이에 의해 자료를 수집하는 경우 서베이가 적절하게 수행되었는가.


1-2. 자료의 타당성 점검요소


1-2-1. 실제로 그 응답자가 응답하였는지 확인.


1-2-2. 응답자가 적격자인지 확인.


1-2-3. 정해진 절차에 따라 진행하였는지 확인.


1-2-4. 예의 바르게 행동하였고, 응답에 대한 약속한 보상을 제공했는지 확인.


1-3. 점검방법


1-3-1. 설문지에 응답자의 성명과 전화번호를 기입하도록 하고, 10~20%의 응답자들에게 자료수집 직후에 전화를 통하여 타당성을 점검.


1-3-2. 타당성에 문제가 있는 응답지는 폐기해야 하고, 전반적으로 문제가 있다면 모두 폐기해야 한다.



2. 자료의 편집


2-1. 자료편집의 의의 : 면접자나 응답자의 실수를 점검하고 수정하는 작업.


2-2. 편집작업에서의 확인 항목


2-2-1. 응답하지 않은 항목이 있는지 확인하고 수정.


2-2-2. 적격성 판단을 위한 질문에 응답 하였는지 확인하고 수정.


2-2-3. 개방형 질문에 대한 응답이 유용한지 확인 - 응답에 가치가 없으면 응답자에게 재확인하여 가치있는 응답을 끌어낼 수 있도록 해야 함.


2-2-4. 알아볼 수 없는 응답이나 해석할 수 없는 응답을 확인하고 수정.


2-2-5. 응답에 일관성이 있는지 확인 

ex> 어제 밤에 TV광고를 보았다고 응답하고, 또 다른 문항에서는 어제 밤에 TV 시청을 하지 않았다고 응답.



3. 자료의 코딩


3-1. 자료코딩의 의의 : 수집된 응답자료를 컴퓨터에 입력하기 위하여 숫자로 표현하는 작업.


3-2. 자료코딩 시 유의사항 : 분석방법을 고려하여 코딩해야 한다.





통계학의 종류와 기본용어



1. 통계학의 구분


1-1. 기술통계학 (Descriptive statistics) : 

주어진 자료의 특성을 그대로 기술하는 것. (ex. 매출액, 사원수, 연령 별 인구 등)

cf. '다차원척도법', '컨조인트분석', '군집분석', '요인분석'이 기술통계학에 해당한다. ('다컸군요' 라고 약자를 따서 암기하자)


1-2. 추계통계학 (Inferential statistics) : 

표본의 특성으로부터 모집단의 특성을 추정하는 것.

cf. '다차원척도법', '컨조인트분석', '군집분석', '요인분석' 이외의 분석방법이 추계통계학에 해당한다.


1-3. 분석기법의 유형과 구분 : 가급적 아래 이미지를 통째로 암기해 놓는 것이 유용하다.





2. 주요 용어


2-1. 모수 : 모집단의 특성을 나타내는 값.


2-2. 통계량 : 표본의 특성을 나타내는 값.


2-3. 모수와 통계량에 대한 통계표현들



2-4. 계산공식 



2-4-1. 위 공식에 대한 설명은 아래의 '이전글'을 참고하길 바란다.


※관련글 - 16. 관련용어정리 - 신뢰수준, 유의수준, 오차범위, 분산, 표준편차


2-4-2. 통계량의 표준편차(s) 를 구하는 식은 분모의 n(표본개수)에 1을 빼준 값으로 하는데, 이는 모집단의 평균 값과 가까워지기 위한 보정이다.


2-4-3. 회귀계수와 상관계수 계산식은 이후 회귀분석과 상관분석 편에서 설명된다.





추정의 오류진단과 표본추출분포



1. 주요 용어


1-1. 모집단 분포 (Population distribution)  : 모집단 구성요소들의 분포.


1-2. 표본추출분포 (Sampling distribution) : 표본통계량의 분포.


1-3. 평균의 표본추출분포 (Sampling distribution of means) : 표본추출분포의 대표적인 것으로써, 크기가 동일한 표본을 무한히 추출했을 때 표본평균값들의 분포.


1-4. 정규분포 : 위 관련글의 내용을 참고하길 바란다.


1-4. 중심극한정리 (Central limit theorem) : 


평균 'μ'와 표준편차 'σ'인 모집단에서 크기 n의 표본을 반복적으로 추출하면, 각 표본들의 표본평균값인 'X bar' 의 분포는 정규분포에 근사하게 되며, 평균 'μ'와 표준편차 'σ/n' 가 된다. 이 때의 표준편차, 즉 표본추출분포의 표준편차를 표준오차라고 부르고, 표본추출분포는 표본의 크기가 클수록 정규분포에 근사하게 되며, 좁은 모습으로 나타난다.


cf. 즉, '평균의 표본추출분포'에서의 표준편차를 표준오차라고 한다.


2. 표준오차 계산식


표준오차는 가설검증에서 매우 중요한 개념이니, 외워놓도록 하자.


2-1. 평균의 표본추출분포에서의 표준오차 계산식 : 



cf. 분자의 's(통계량의 표준편차)'는 원래 'σ(모수의 표준편차)' 이지만, 'σ'를 모르면 대신 's'를 사용한다.



2-2. 비율의 표본추출분포의 표준오차 계산식 : 



cf. 'q hat' 값은  (1 - 'p hat') 이다.

cf. 분자의 'p hat * q hat'은 원래 모수의 비율 'p * q' 이지만, p 값을 모르면 대신 'p hat * q hat' 을 사용한다.


이 글을 공유하기

Designed by JB FACTORY