[python/파이썬] 두 모분산 비율 검정(동일성 검정) 예제
통계초등학교 과학실에는 저울이 있습니다.
무게가 100g으로 추정되는 물체를 10번 측정한 결과
이 저울의 오차범위는 약 ±1.5g입니다.
참고로 해당 자료는 다음과 같이 생성하였습니다.
표본분산을 구하는 과정에서 ddof를 1로 입력하는 이유는
아래 글을 참조 부탁드립니다.
[python/파이썬] F분포
카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열
gilber.tistory.com
확률초등학교 과학실에도 저울이 있습니다.
무게가 100g으로 추정되는 물체를 8번 측정한 결과
이 저울의 오차범위는약 ±1g입니다.
확률초등학교에서는 자교의 저울의 오차범위가 더 적으므로,
통계초등학교의 저울보다 더 우수하다고 주장합니다.
이러한 확률초등학교의 주장은 타당할까요?
여기서 오차범위는 표준편차로 해석할 수 있으며,
오차범위의 제곱을 모분산으로 볼 수 있습니다.
따라서 통계초등학교 저울의 모분산은 약 2.25(1.5²)이며,
확률초등학교 저울의 모분산은 약 1(1²)입니다.
모분산도 모수의 일종이며,
모수에 대해서 펼치는 주장을 가설이라고 합니다.
모수에 대해서 새로운 주장을 한다면,
기존의 주장과는 대립되므로 대립가설이라고 합니다.
만약 대립가설이 타당하지 않다면,
기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.
돌아갈 귀(歸)와 없을 무(無)의 귀무이며,
돌아가서 보니 변한 건 없다는 의미입니다.
<가설검정 1단계> 귀무가설과 대립가설 설정
귀무가설은 다음과 같습니다.
통계초등학교 저울의 분산은
확률초등학교 저울의 분산과 같다.
대립가설은 다음과 같습니다.
통계초등학교 저울의 분산은
확률초등학교 저울의 분산보다 크다.
이제는 새로운 주장인 대립가설이 맞는지 확인할 통계 수단을 찾아야 합니다.
만약 대립가설이
'통계초등학교 저울의 분산이
정상저울의 기준이 되는 분산보다 다르다'라면
통계초등학교 저울의 분산이 확률초등학교 저울의 분산보다 큰 경우와,
통계초등학교 저울의 분산이 확률초등학교 저울의 분산보다 작은 경우
모두를 포괄하므로, 양측검정이 됩니다.
사례의 경우는
통계초등학교 저울의 분산이
확률초등학교 저울의 분산보다 큰 경우만을 검정하므로,
단측검정이 됩니다.
<가설검정 2단계> 검정통계량 설정
예제는 두 모분산의 비율에 대한 검정이므로,
F통계량을 사용하기로 합니다.
가설을 검정할 때 사용하는 통계량이므로,
검정통계량이라고 합니다.
검정통계량 계산시 두 표본의 모분산이 반영되지 않은 이유는
귀무가설에서 두 모분산이 같다고 가정하고 있으므로,
서로 약분이 되어 표본분산만을 비교하게 되기 때문입니다.
두 모분산의 비율 검정에 사용되는 F분포는,
아래 글을 참조 부탁드립니다.
[python/파이썬] F분포
카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열
gilber.tistory.com
우리는 가설이 타당한지 여부를 결정해 줄 검정통계량으로
F분포를 정했습니다.
F분포는 그래프의 면적이 확률을 나타내는 확률분포이며,
두 표본의 자유도에 따라 그래프의 개형이 달라집니다.
예제에서 첫번째 자유도는
첫번째 표본크기 10에서 1을 뺀 9이며,
두번째 자유도는
두번째 표본크기 8에서 1을 뺀 7입니다.
자유도가 9와 7인 F분포의 그래프 개형은 다음과 같습니다.
자유도에 대해서는
다음 글을 참조 부탁드립니다.
[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균
카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열
gilber.tistory.com
F분포는
좌우가 비대칭인 비정규분포입니다.
F분포는 확률분포로서
그래프 아래의 면적이 곧 확률입니다.
일반적으로는 발생할 확률이 5%도 채 되지 않는다면,
통계적으로는 발생할 확률이 없다고 판단합니다.
지금은 단측검정이므로,
오른쪽 극단의 5%를 비교합니다.
통계적으로는 95%의 확률로
통계초등학교 저울의 분산과 확률초등학교 저울의 분산이 같다고 예상(귀무가설)하며,
검정통계량이 오른쪽 나머지 5%에 속하는 경우에 한해서,
통계초등학교 저울의 분산이 확률초등학교 저울의 분산보다 크다고 할 수 있습니다.
오른쪽 극단의 5%에 해당하는 F검정통계량 값은 다음과 같습니다.
<가설검정 3단계> 유의수준 설정
우리는 발생할 확률이 5%도 채 되지 않는다면,
가설을 받아들이지 않기로 하였습니다.
이때 기준이 되는 확률이 바로 유의수준입니다.
유의수준은 보통 %로 표시하지 않고,
소수점으로 표현하므로
5% 대신 0.05로 표기합니다.
만약 통계초등학교 저울과 확률초등학교 저울의 분산이 같다고 가정한
F검정통계량이 오른쪽 극단의 5% 이내의 구간에 포함된다면,
기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.
우리는 현재 통계초등학교 저울의 분산과 확률초등학교 저울의 분산을 비교하는 중이며,
분산이 같다고 가정한 기존 가설의 발생확률이
5%도 되지 않는다면,
기존가설을 받아들이지 않는 것이 타당하기 때문입니다.
그러나 우리가 기준으로 삼은 검정통계량이
3.6766746989395105 보다 작은 구간에 속한다면,
기존 귀무가설을 받아들이도록 하겠습니다.
<가설검정 4단계> 검정통계량 계산
이를 수식에 대입하면 다음과 같으며,
이번 예제의 검정통계량 값은 약 2.25입니다.
참고로 파이썬에서는 F분포 검정통계량을 별도로 계산해주는 메서드는 없으므로,
직접 수식에 대입하여 값을 얻어야 합니다.
<가설검정 5단계> 통계적 판단
우리는 기준으로 삼은 검정통계량이
3.6766746989395105 보다 큰 구간에 속한다면,
기존 귀무가설을 받아들이지 않기로 하였습니다.
F검정통계량이 약 2.25이고, 이는
3.6766746989395105 보다 작은 구간에 속하므로
통계초등학교 저울의 분산과 확률초등학교 저울의 분산은 같다는
기존 귀무가설을 기각할 수 없습니다.
이를 통계적인 표현으로는
귀무가설을 채택한다고 표현합니다.
가설의 기각여부는 귀무가설을 중심으로 표현하지만,
결론은 대립가설을 기준으로 표현합니다.
따라서 이번 예제의 결론은 다음과 같습니다.
유의수준 5%에서 검정결과,
통계초등학교 저울의 분산은
확률초등학교 저울의 분산보다 크다는
대립가설을 기각합니다.
즉, 표본에서 통계초등학교 저울의 분산이
확률초등학교 저울의 분산보다 높게 나왔으나,
통계적으로 통계초등학교 저울의 오차와
확률초등학교 저울의 오차는 같은 수준입니다.
따라서 오차를 사유로
확률초등학교 저울이 통계초등학교의 저울에 비해
더 우수하다고 할 수 없습니다.