카이제곱분포, t분포, F분포는
모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다.
통계적 가설을 검정하고, 검증된 가설은
통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열쇠가 됩니다.
카이제곱분포는 표본분산을 통해 주로 모분산을 검정하며,
t분포는 표본평균을 통해 모평균을 검정하거나,
두 집단 간의 평균이 차이가 있는지 검정하게 됩니다.
만약 표본의 크기가 30 이상일 경우는
그 표본평균의 분포와 무관하게, 즉 정규분포가 아니더라도
정규분포를 따른다는 사실이 알려져 있습니다.
따라서 표본의 크기가 30이상이라면,
t분포보다 정규분포를 주로 활용하며,
표본의 크기가 30 미만으로서 작은 경우에
t분포를 주로 활용합니다.
모평균을 검정하려면, 결국 표본평균을 통해 검정해야 하고,
서로 다른 표본들을 비교하기 위해 , 평균이 0이고 표준편차가 1로 만드는 표준화 작업이 필요합니다.
이로 인해 t분포의 정의식에서 분자에 표준정규분포가 들어갑니다.
표준정규분포는 표본평균에서 모평균을 빼고 표준편차로 나눠서 구합니다.
여기서 표준편차는 표본평균의 분산에 제곱근을 통해 구합니다.
t분포의 정의식에서 분모에는 카이제곱분포가 들어갑니다.
t분포의 정의식에 카이제곱분포가 들어가는 이유는,
카이제곱분포가 표본분산의 분포를 보여주기 때문입니다.
여기서 표본분산은 검정하려는 모평균과 표본평균 사이에 발생하는 차이를 오차라고 보고,
이 오차들의 분포를 통해 발생빈도가 높은 모평균인지 아닌지를 검정합니다.
최종적으로 t분포의 정의식을 정리하면 다음과 같습니다.
t분포의 최종 정의식에는 모분산(σ²)과 모표준편차(σ)가 빠져있습니다.
표본분산을 활용하는 이유는 모분산을 모르기 때문이며,
모분산을 모르는 상태에서도 모평균을 검정하기 위해서입니다.
통계초등학교 2학년 학생들의 키의 분포를 조사하고 있습니다.
작년 자료를 통해 모평균이 130이라는 사실을 알고 있습니다.
이 모평균 신뢰할 수 있을까요?
우리는 표본을 7명씩 뽑아 키를 조사할 예정이며,
모평균이 130인 경우 표본평균이 이루는 분포를 알고 있습니다.
바로 t분포입니다.
신뢰할 수 있는 모평균의 수준은
자유도가 6인 표본평균의 분포에서 2.5% 이상 97.5% 이하의 분포에 들어오면
신뢰할 수 있는 수준이라고 판단하겠습니다.
즉, 빨간 구간에 들어오면 정상적인 모평균이며, 이 외의 구간에 들어오는 모평균은 비정상이라고 판단기준을 정했습니다.
우리는 현재 정확한 모평균은 모르지만, 표본평균이 t분포를 따른다는 사실은 알고 있습니다.
하위 2.5%의 기준점은 다음과 같습니다.
상위 2.5%(하위 97.5%)의 기준점은 다음과 같습니다.
t분포는 좌우대칭이므로, 하위와 상위에서 떨어진 정도만 같다면,
기준점은 부호를 달리하나 절댓값은 같습니다.
따라서 표본을 7명씩 뽑은 평균이 다음 구간에 들어온다면, 그 평균은 정상적인 평균입니다.
첫 번째 7명의 키를 재었습니다.
첫번째 표본의 평균과 표준편차는 다음과 같습니다.
t분포의 정의식에 대입한 결과, 정상평균 기준에 들어가므로
작년 자료의 모평균은 아직 신뢰할만합니다.
두 번째 7명의 키를 재었습니다.
두 번째 표본의 평균과 표준편차는 다음과 같습니다.
t분포의 정의식에 대입한 결과, 정상평균 기준에 들어가므로
작년 자료의 모평균은 아직 신뢰할만합니다.
세 번째 7명의 키를 재었습니다.
세 번째 표본의 평균과 표준편차는 다음과 같습니다.
t분포의 정의식에 대입한 결과, 정상적인 평균의 기준에 부합하지 않습니다.
즉, 첫 번째 표본과 두 번째 표본에 따르면 모평균 130cm은 신뢰할만한 수준이나,
세 번째 표본에 따르면 모평균 130cm은 적정하지 않다는 결론을 내릴 수 있습니다.
표본 간 상이한 결론이 나온 상황에서는
2가지 가능성을 점검해야 합니다.
1. 작년 자료의 모평균은 현재의 모평균과 다르다.
2. 세 번째 표본은 키를 잘못 재었거나, 조작되었다.
1번의 경우에는 좀 더 표본을 추출하여 비교해 보고,
정상평균의 기준에 부합하지 않는 표본평균이 계속 나온다면 ,
작년 자료의 모평균은 현재의 모평균이 아니라고 결론 내릴 수 있습니다.
2번의 경우에는 실제 표본의 수집과정을 면밀히 파악하여,
측정과정에 문제는 없는지 확인해야 합니다.
사실 첫 번째 표본과 두 번째 표본은,
정규분포를 따르고, 평균 130cm이고 표준편차가 10cm(분산은 100)가 되도록 생성된 자료입니다.
세 번째 표본은 첫 번째 표본 각각의 값에 가중치를 부여하여,
일부러 평균이 커지도록 조작한 자료입니다.
우리는 표본을 활용하여,
정상적인 표본평균이 이루는 분포를 확인하고,
모평균을 검정하였습니다.
그리고 이 과정에서 자유도가 n-1인 t분포를 활용하였습니다.
t분포는 이처럼 정규분포를 따르는 소규모 집단의 평균을 검정하거나,
두 집단의 평균이 차이가 있는지 여부를 검정하는데 주로 활용되며,
이는 가설검정에서 다루도록 하겠습니다.
'확률분포 > 연속형 확률분포' 카테고리의 다른 글
[python/파이썬] F분포 (0) | 2023.02.11 |
---|---|
[python/파이썬] 카이제곱분포 (0) | 2023.02.07 |
[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 분산 (2) | 2023.02.03 |
[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균 (0) | 2023.02.02 |
[python/파이썬] 카이제곱분포로 가는 표본평균 분포의 분산 (0) | 2023.02.01 |
[python/파이썬] 카이제곱분포로 가는 표본평균 분포의 평균 (0) | 2023.01.31 |
[python/파이썬] 카이제곱분포로 가는 모분산 (0) | 2023.01.30 |
[python/파이썬] 카이제곱분포로 가는 모평균 (2) | 2023.01.30 |