728x90

특별 교육 이수 전,

통계초등학교 학생 10명의 성적 조사한 결과,

평균은 80점이며, 표준편차는 약 8점이었습니다.

특별 교육 이수 후 ,

통계초등학교의 같은 학생 10명의 성적 조사한 결과,

평균은 82점이며, 표준편차는 약 6.928점이었습니다.

참고로 평균과 표준편차를 원하는 수치에 근사하여 생성하는 방법은 다음과 같습니다.

통계초등학교 학생의 성적은 정규분포를 따르며,

특별교육 이수 전과 후의 차이를 비교하고자 합니다. 

 

표본은 같은 학생의 전과 후 성적이 대응되므로,

이러한 표본을 대응표본이라고 합니다. 

 

이 경우,

특별 교육 이수 후, 

평균이 2점 올랐으므로, 

특별 교육 이수 후 성적상승의 효과가 나타났다고 할 수 있을까요?

 

모수에 대해서 펼치는 주장을 가설이라고 합니다.

 

모수에 대해서 새로운 주장을 한다면,

기존의 주장과는 대립되므로 대립가설이라고 합니다.

 

만약 대립가설이 타당하지 않다면,

기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.

돌아갈 귀(歸)와 없을 무(無)의 귀무이며,

돌아가서 보니 변한 건 없다는 의미입니다.

 

 

<가설검정 1단계> 귀무가설과 대립가설 설정

 

귀무가설은 다음과 같습니다.

특별 교육 이수 전 통계초등학교 학생의 평균성적과,

특별 교육 이수 후 통계초등학교 학생의 평균성적이 같다.

 

대립가설은 다음과 같습니다.

특별 교육 이수 전 통계초등학교 학생의 평균성적은

특별 교육 이수 후 통계초등학교 학생의 평균성적보다  낮다.

 

 

이제는 새로운 주장인 대립가설이 맞는지 확인할 통계 수단을 찾아야 합니다.

 

우리는 제시된 표본의 크기가 30 미만이므로,

통계적으로는 표본에 해당됩니다.

 

만약 대립가설이

평균성적이 다르다라는 주장이라면,

이는 성적이 올라간 경우와 내려간 경우를 모두 포괄하므로,

양측검정이 됩니다. 

 

사례의 경우는 성적이 올라간 경우만을 검정하므로,

단측검정이 됩니다.

 

 

<가설검정 2단계> 검정통계량 설정

 

표본의 수가 30미만인 표본이므로,

t검정통계량을 사용하기로 합니다.

 

이를 가설을 검정할 때 사용하는 통계량이므로,

검정통계량이라고 합니다.

소표본에 사용되는 t분포는,

아래 글을 참조 부탁드립니다.

https://gilber.tistory.com/42

 

[python/파이썬] t분포

카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열

gilber.tistory.com

 

우리는 가설이 타당한지 여부를 결정해 줄 검정통계량으로

t분포를 정했습니다.

 

t분포는 그래프의 면적이 확률을 나타내는 확률분포이며,

그래프의 개형은 다음과 같습니다.

 

t분포는 자유도에 따라 개형을 달리합니다.

 

일반적인 경우의 자유도는 

첫번째 표본수(10)에서 1을 빼고,

두번쩨0 표본수(10)에서 1을 빼서 더한 18이었습니다. 

 

그러나 예제와 같은 대응표본의 경우는

한 사람의 전후를 비교한 표본이므로,

실제적으로 표본은 10명입니다.

여기에 1을 뺀 9가 자유도가 됩니다.

 

자유도에 대한 설명은

아래글을 참조 부탁드립니다.

https://gilber.tistory.com/39

 

[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균

카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열

gilber.tistory.com

 

t분포는 평균이 0인 좌우대칭이며,

기준인 0을 중심으로 +1, -1 사이에 많은 자료값들이 분포가 되어있습니다.

 

t분포는 정규분포와 유사하지만,

정규분포와는 다른 대표적인 비정규분포입니다.

 

그래프 아래의 면적이 곧 확률이므로,

기준에서 멀어질수록 확률은 줄어들게 됩니다.

 

일반적으로는 발생할 확률이 5%도 채 되지 않는다면,

통계적으로는 발생할 확률이 없다고 판단합니다.

 

만약 특별 교육 이수의 전과 후가

같다와 같지 않다만 비교한다면,

양 극단의 2.5%만 비교합니다. 

 

지금은 특별 교육 이수 전보다

특별 교육 이수 후의 성적이 향상되었다는 주장에 대해 검정하므로

왼쪽 극단의 5%만 비교합니다.

왼쪽 극단의 5%에 해당하는 t통계량 값은 다음과 같습니다.

참고로,  특별 교육 이수 전의 평균이 높은 경우는

자료의 순서를 변경하거나,

아니면 왼쪽 극단의 5%에 해당하는 t통계량으로 비교합니다.

 

t분포는 0을 기준으로 좌우대칭이므로,

왼쪽 극단의 5%는 오른쪽 극단과 같은 값이나

부호를 달리합니다.

 

 

<가설검정 3단계> 유의수준 설정

 

우리는 발생할 확률이 5%도 채 되지 않는다면,

가설을 받아들이지 않기로 하였습니다. 

 

이때 기준이 되는 확률이 바로 유의수준입니다.

 

유의수준은 보통 %로 표시하지 않고,

소수점으로 표현하므로

5% 대신 0.05로 표기합니다.

 

만약 특별 교육 이수 전과 후의 평균이 같다고 가정한

t통계량이 5% 이내의 구간에 포함된다면,

기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.

 

우리는 현재 교육 이수 전과 후를 비교하는 중이며,

전과 후 평균이 같다고 가정한 기존 가설의 발생확률이

5%도 되지 않는다면,

기존가설을 받아들이지 않는 것이 타당하기 때문입니다.

 

그러나 우리가 기준으로 삼은 검정통계량이

-1.8331129326536337 보다 큰 경우로서,

발생할 확률이 5%가 넘는다면,

기존 귀무가설을 받아들이도록 하겠습니다.

 

 

<가설검정 4단계> 검정통계량 계산

두 표본 간 차이의 평균은 우선 두 표본 간 차이를 구한 후 계산합니다.

두 표본 간 차이의 평균,  표본표준편차, 표본의 갯수는 다음과 같습니다.

이를 수식에 대입하면 다음과 같으며, 

이번 예제의 검정통계량 값은 -0.56493268660322입니다.

scipy를 활용하여 대응표본인 t통계량을 구하는

ttest_rel를 활용해도 결과는 같습니다.

ttest_rel의 인자 중

alternative는 양측검정인지, 단측검정인지 여부를 묻는 것으로서,

양측검정이면 'two-sided'를,

단측검정 중 대응표본 전(before)이 후(after)보다 크다에 대한 검정이면 'greater'

단측검정 중 대응표본 전(before)이 후(after)보다 작다에 대한 검정이면 'less'를 입력합니다.

 

지금은 특별 교육 이수 후 성적이 올랐다는 주장에 관해서이며,

특별 교육 이수 전의 성적은 이수 후의 성적보다 작다에 대한 검정이므로,

less를 입력합니다.

 

<가설검정 5단계> 통계적 판단

우리는 기준으로 삼은 검정통계량이

-1.8331129326536337 보다 작은 경우에만

기존 귀무가설을 받아들이지 않기로 하였습니다.

 

검정통계량이 -0.56493268660322이고

-1.8331129326536337 보다 크므로,

특별 교육 이수 전과 후의 평균이 같다는

기존 귀무가설을 기각할 수 없습니다.

 

이를 통계적인 표현으로는

귀무가설을 채택한다고 표현합니다.

 

가설의 기각여부는 귀무가설을 중심으로 표현하지만,

결론은 대립가설을 기준으로 표현합니다. 

 

따라서 이번 예제의 결론은 다음과 같습니다. 

 

유의수준 5%에서 검정결과,

특별 교육 이수 전 통계초등학교 학생의 평균성적은

특별 교육 이수 후 통계초등학교 학생의 평균성적보다 낮다는

대립가설을 기각합니다.

반응형

+ Recent posts