가설검정/모비율 가설검정

[python/파이썬] 소표본에서 모비율 검정 예제

gilber 2023. 2. 25. 12:47
728x90

통계초등학교 학생의 남녀비율을 알아보기 위해

학생 10명을 임의로 추출하였습니다. 

 

그 결과 남학생은 6명이었습니다.

이 경우 남학생의 비율이 여학생의 비율보다 크다고 할 수 있을까요?

 

모비율 관련해서 표본이 대표본라면, 

통계초등학교 학생의 남녀비율에 대해서는 

정규분포로 근사하여 계산합니다.

 

표본이 소표본이라면,

이항분포로 계산합니다.

 

대표본인지 소표본인지 여부는 다음을 기준으로 판단합니다.

계산결과가 대표본이 아니라면,

소표본에 해당됩니다.

 

참고로 해당 식은

이항분포의 기댓값과 분산에서 유래된 식입니다.

 

이항분포와 관련해서는

아래 글을 참조 부탁드립니다.

https://gilber.tistory.com/25

 

[python/파이썬] 이항분포

변수는 랜덤하게 발생하거나, 일정한 확률을 가지고 발생합니다. 일정한 확률을 바탕으로 발생하는 변수를 확률변수(Random Variable)라고 합니다. 확률변수들이 모여 확률분포를 이루게 됩니다. 데

gilber.tistory.com

 

 

예제에서 제시된 표본의 크기가 10이며,

남학생과 여학생의 비율이 같다는 전제 하에,

추정되는 모비율이 0.5(50%)이므로

10 × 0.5 의 결과가 5 미만이고,

10 × 0.5 × (1 - 0.5)의 결과도 5 미만이므로,

통계적으로는표본에 해당됩니다.

소표본이면 이항분포로 계산합니다.

 

 

다시 예제로 돌아가서,

표본의 결과 10명중 6명이 남학생이고,

여학생 4명보다 많으므로,

실제 남학생의 비율이 더 높다고 말할 수 있을까요?

 

모수에 대해서 펼치는 주장을 가설이라고 합니다.

 

모수에 대해서 새로운 주장을 한다면,

기존의 주장과는 대립되므로 대립가설이라고 합니다.

 

만약 대립가설이 타당하지 않다면,

기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.

돌아갈 귀(歸)와 없을 무(無)의 귀무이며,

돌아가서 보니 변한 건 없다는 의미입니다.

 

 

<가설검정 1단계> 귀무가설과 대립가설 설정

 

귀무가설은 다음과 같습니다.

통계초등학교 남학생과 여학생의 비율은 같다.

 

대립가설은 다음과 같습니다.

통계초등학교의 남학생 비율은

여학생 비율보다 높다.

 

이제는 새로운 주장인 대립가설이 맞는지 확인할 통계 수단을 찾아야 합니다.

 

만약 대립가설이

'통계초등학교 남학생과 여학생의 비율이 다르다'라면,

이는 남학생의 비율이 더 높은 경우와

남학생의 비율이 더 낮은 경우를 모두 포괄하므로

양측검정이 됩니다. 

 

사례의 경우는 남학생의 비율이 더 높은 경우만을 검정하므로,

단측검정이 됩니다.

 

 

<가설검정 2단계> 검정통계량 설정

 

예제는 모비율 관련 소표본이므로,

이항분포를 사용합니다.

 

가설을 검정할 때 사용하는 통계량을

검정통계량이라고 합니다.

 

여기서 검정통계량은

10명 중 남학생이 6명 이상 나올 확률입니다.

 

5명이 나오면 남학생과 여학생의 비율이 같으므로,

남학생의 비율이 높다고 할 수 없으며,

6명이 나오거나,

7명이 나오거나,

8명이 나오거나,

9명이 나오거나,

뽑은 10명 모두가 남학생인 경우에 해당됩니다.

 

이항분포에서 확률은 다음과 같습니다.

 

<가설검정 3단계> 유의수준 설정

 

일반적으로는 발생할 확률이 5%도 채 되지 않는다면,

통계적으로는 발생할 확률이 없다고 판단합니다.

 

하지만 이는 절대적인 기준이 아니며,

판단의 기준은 연구의 특성을 감안하여 결정하게 됩니다.

 

이번 경우는 발생할 확률이 10%도 채 되지 않는다면,

대립가설을 받아들이지 않기로 하겠습니다.

 

이때 기준이 되는 확률이 바로 유의수준입니다.

 

만약  남학생과 여학생의 비율이 같다고 가정한

이항분포 통계량이 10% 이내의 구간에 포함된다면,

기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.

 

우리는 현재 남학생과 여학생의 비율을 비교하는 중이며,

비율이 같다고 가정한 기존 가설의 발생확률이

10%도 되지 않는다면,

기존가설을 받아들이지 않는 것이 타당하기 때문입니다.

 

 

<가설검정 4단계> 검정통계량 계산

남학생과 여학생이 비율이 같다(50% = 0.5)는 전제 하에,

이항분포에서 전체 10명 중에서

남학생 6명을 뽑을 확률은 다음과 같습니다.

scipy를 활용하여,

이항분포의 값을 구하면 다음과 같습니다.

여기서 binom은 이항분포를 뜻하는 binomial distribution을 뜻하며,

pmf는 확률질량함수를 뜻하는 probability mass function의 약자입니다.

 

확률질량함수는 값들이 6명, 7명처럼 떨어져있는 분포에서

확률을 계산해 주는 함수입니다.

 

우리는 통계초등학교 학생 10명 중에서

남학생이 6명 이상일 확률을 구하고 있으므로,

6명, 7명, 8명, 9명, 10일 확률을 모두 구해서 더해야 합니다.

이를 모두 구해서 더하지 않고,

전체 확률에서 5명 이하일 확률을 빼주어도 결과는 같습니다.

cdf는 누적분포함수를 뜻하는 cumulative distribution function의 약자입니다.

누적분포함수는 지정한 값까지의 확률을 모두 더해주는 함수입니다.

 

예제의 검정통계량은 0.376953125입니다.

 

 

<가설검정 5단계> 통계적 판단

우리는 유의수준 10%에서 검정하기로 하였으며,

남학생의 비율이 더 높을 확률이 90%를 넘어가는 경우에 한하여,

남학생의 비율이 더 높다고 결론내리기로 하였습니다.

 

검정통계량이  0.376953125이며,

약 37.69%로 90%에 못미칩니다.

따라서 남학생과 여학생의 비율이 같다는

기존 귀무가설을 기각할 수 없습니다.

 

이를 통계적인 표현으로는

귀무가설을 채택한다고 표현합니다.

 

가설의 기각여부는 귀무가설을 중심으로 표현하지만,

결론은 대립가설을 기준으로 표현합니다. 

 

따라서 이번 예제의 결론은 다음과 같습니다. 

 

유의수준 10%에서 검정결과,

통계초등학교 남학생의 비율은

여학생 비율보다 높다는

대립가설을 기각합니다.

 

즉, 표본에서 남학생의 비율이

여학생의 비율보다 높게 나왔으나,

통계적으로는 남학생의 비율이 더 높다고 할 수 없습니다.

 

그렇다면, 표본에서 남학생의 비율이 

어느 정도 높게 나와야

통계적으로 남학생의 비율이 더 높다고 할 수 있을까요?

 

유의수준 10% 기준으로는

표본에서 남학생이 8명 이상 나오는 경우에

통계적으로 남학생의 비율이 더 높다고 할 수 있습니다.

이는 10명의 학생 중 남학생이 8명 이상 나올 확률이

약 5.46%라는 의미이며,

우리의 판단기준인 유의수준 10%보다 적기 때문에,

발생할 확률이 희박하다는 의미이며,

따라서 8명 이상 나오는 희박한 경우에 한하여,

남학생의 비율이 더 높다는 대립가설을 받아들일 수 있습니다.

 

이처럼 유의수준에 따라 결론이 달라지므로,

연구 수행 전에

객관적으로 인정될 수 있는 유의수준을 설정 후,

가설검정을 해야 합니다.

반응형