카이제곱분포, t분포, F분포는
모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다.
통계적 가설을 검정하고, 검증된 가설은
통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열쇠가 됩니다.
이중 카이제곱분포는 t분포와 F분포의 기반이 되는 분포입니다.
카이제곱분포로 가는 시리즈는 다음과 같이 구성됩니다.
1. 카이제곱분포로 가는 모평균
2. 카이제곱분포로 가는 모분산
3. 카이제곱분포로 가는 표본평균 분포의 평균
4. 카이제곱분포로 가는 표본평균 분포의 분산
5. 카이제곱분포로 가는 표본분산 분포의 평균
6. 카이제곱분포로 가는 표본분산 분포의 분산
7. 카이제곱분포
오늘은 카이제곱분포로 가는 표본분산 분포의 평균에 대해서입니다.
지금까지는 표본평균이 이루는 분포에 대해서 다뤘다면,
오늘은 표본분산이 이루는 분포에 대해서 다루게 됩니다.
표본은 모집단에서 일부를 추출한 것이므로,
표본분산도 모분산과 동일한 방식으로 구하면 된다고 생각할 수 있습니다.
그러나 표본분산과 모분산을 구하는 방법은 다릅니다.
참고로 모분산을 구하는 식은 다음과 같습니다.
여기서 x는 자료 각각의 값을 뜻하며,
µ는 자료전체의 평균(모평균)을 뜻하며,
n은 자료의 개수를 뜻합니다. 모집단 자료의 수라는 의미에서 N으로 표기하기도 합니다.

오류라는 것을 알면서도,
이해를 돕기 위해 모분산과 같은 방식으로 표본분산이 이루는 분포의 평균을 구해보겠습니다.
기존과 동일하게 통계초등학교 학생의 키에 대한 자료를 생성하겠습니다.
정규분포를 따르며, 평균이 130cm이고 표준편차가 10cm인 자료를 10개씩 추출하여,
10000개의 표본을 생성하였습니다.

첫 번째 표본을 살펴보겠습니다.

10개의 표본이 추출되었고, 해당 표본의 분산은 대략 93.52입니다.
두 번째 표본을 살펴보겠습니다.

마찬가지로 10개의 표본이 추출되었으나,
해당 표본의 분산은 대략 45.35로서 비록 표본이긴 하나,
우리가 가정한 분산인 100(표준편차 10의 제곱)과는 상당한 차이가 있습니다.
모든 표본에 대해서 분산을 구해보도록 하겠습니다.
10000개의 표본을 다 열거할 수 없으나,
처음 일부만 열거하면 다음과 같습니다.

seaborn을 활용하여 표본분산의 분포를 그리면 다음과 같습니다.

분명 정규분포를 따르는 자료이나,
표본분산의 분포는 정규분포의 대칭성을 띄지 않습니다.
참고로
표본마다 추출하는 자료의 개수를 30 이상으로 증가시키면,
정규분포에 근사하는 그래프는 나오지만,
지금은 표본분산의 분포에 관한 글이므로 자료의 개수를 10으로 유지하겠습니다.
표본분산의 분포 그래프의 평균을 추정해 보면,
분명 우리가 최초 생성기준인 분산 100과는 차이가 있어 보입니다.
실제 해당 표본분산 분포의 평균은 다음과 같습니다.

모평균과 표본평균의 평균은 일치하였으나,
모분산과 표본분산의 평균은 일치하지 않습니다.
표본분산의 평균은 모분산을 구하기 위한 일련의 과정이나,
모분산과 표본분산의 평균이 일치하지 않는 것은 표본분산을 구하는 과정에 문제가 있는 것입니다.
분산이 100이 나올 것으로 예상되는 자료에서
89.89가 나온 것은 분자나 분모의 비율에 문제가 있기 때문입니다.
분자의 경우는 편차의 합으로서 분산의 핵심을 이루는 부분으로
비율의 변경이 불가합니다.
분모의 경우는 자료의 개수로서 이미 확증된 부분입니다.
그러나 우리가 표본의 분산으로서 자료의 개수를 따져보면
중복된 정보가 처리되고 있다는 것을 알 수 있습니다.
다시 첫 번째 표본을 살펴보겠습니다.

첫번째 표본의 10개 자료값은 첫번째 표본의 분산을 구하는데 활용되었습니다.
다만 첫번째 표본의 분산값이 확정되는 순간,
첫번째 표본의 자료값은 9개의 자료값만으로도 충분합니다.
없는 1개의 자료값은 나머지 정보로 정확하게 유추할 수 있기 때문입니다.
예를 들어, 표본 안에 1, 2, 3, 4가 있으며,
이 표본의 평균은 2.5(= (1+2+3+4)/4)가 됩니다.
평균이 확정된 순간, 자료값의 하나인 1이 손실되더라도,
나머지 정보로 정확하게 유추할 수 있습니다.
(? + 2 + 3 + 4)/4 = 2.5가 되기 때문입니다.
표본분산의 자료의 개수도 각 표본분산의 평균이 확정되는 순간,
필요한 최소한의 자료로 처리하기 위해서라면,
각 표본마다 한 개의 자료값을 빼주는 것이 정보의 중복을 방지하기 위한 방안입니다.
즉 10개씩 추출한 10000개의 표본에서,
불필요하게 추출된 1개의 자료값을 제외하면,
10000개의 표본에서 90%(9/10)의 정보만 필요하므로,
자료의 개수를 9000개로 하여 처리합니다.
필요한 최소한의 정보율을 가정하여 계산 시 결과는 다음과 같습니다.
우리가 최초 가정한 분산 100에 상당히 근접하는 결과를 얻게 되었으며,
비로소 표본분산을 통해 모분산을 추정할 수 있게 되었습니다.

필요한 최소한의 정보율은 통계학에서는 자유도로 통합니다.
표본분산이 이루는 분포의 평균을 계산할 때는 자료의 개수로 나누지 않고,
자유도인 n-1로 나누어야 모분산을 구할 수 있습니다.

수학적으로는 다음과 같습니다.

표본분산의 계산결과, 기대되는 값은 모분산입니다.





즉, 표본분산을 구하는 과정에서 n이 아닌 n-1로 나누어야만,
우리가 알고자 했던 모분산이 나오게 됩니다.
정리하면,
표본평균들로 이뤄진 분포의 평균을 통해 모평균을 추정하고,
표본분산들로 이뤄진 분포의 평균을 통해 모분산을 추정하였습니다.
카이제곱분포는 모분산이 특정값을 갖는지 검정하기 위한 분포이므로,
표본분산들로 이뤄진 분포의 분산을 활용하게 됩니다.
다음은 카이제곱분포로 가는 표본분산 분포의 분산입니다.
'확률분포 > 연속형 확률분포' 카테고리의 다른 글
[python/파이썬] F분포 (0) | 2023.02.11 |
---|---|
[python/파이썬] t분포 (0) | 2023.02.09 |
[python/파이썬] 카이제곱분포 (0) | 2023.02.07 |
[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 분산 (2) | 2023.02.03 |
[python/파이썬] 카이제곱분포로 가는 표본평균 분포의 분산 (0) | 2023.02.01 |
[python/파이썬] 카이제곱분포로 가는 표본평균 분포의 평균 (0) | 2023.01.31 |
[python/파이썬] 카이제곱분포로 가는 모분산 (0) | 2023.01.30 |
[python/파이썬] 카이제곱분포로 가는 모평균 (2) | 2023.01.30 |