확률분포/연속형 확률분포

[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 분산

gilber 2023. 2. 3. 02:51
728x90

카이제곱분포, t분포, F분포는

모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 

 

통계적 가설을 검정하고, 검증된 가설은 

통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열쇠가 됩니다.

 

이중 카이제곱분포는 t분포와 F분포의 기반이 되는 분포입니다. 

 

카이제곱분포로 가는 시리즈는 다음과 같이 구성됩니다. 

1. 카이제곱분포로 가는 모평균

2. 카이제곱분포로 가는 모분산

3. 카이제곱분포로 가는 표본평균 분포의 평균

4. 카이제곱분포로 가는 표본평균 분포의 분산

5. 카이제곱분포로 가는 표본분산 분포의 평균

6. 카이제곱분포로 가는 표본분산 분포의 분산

7. 카이제곱분포

 

오늘은 카이제곱분포로 가는 표본분산 분포의 분산에 대해서입니다. 

 

표본이 모분산의 일부분이라는 점에 착안하면,

표본평균들이 모평균을 추종하고,

표본평균들이 이루는 분포는 모분산과 관련 있지만 모분산보다 좁은 분포를 이루며,

표본분산들이 모분산을 추종한다는 것은 일정 부분 예측이 가능합니다.

 

표본의 크기가 30이상일 경우는

그 표본평균의 분포와 무관하게, 즉 정규분포가 아니더라도

정규분포를 따른다는 사실도 알려져 있습니다. 

 

이때 표본들의 평균이 이루는 분포에서 기대되는 값은 모평균(µ)이며,

분산은 표본평균이 이루는 분포의 분산(𝜎²/n)이 됩니다.

즉, 모평균을 중심으로 분산이 𝜎²/n인 정규분포와 유사한 분포를 이루게 됩니다.

이를 정규분포에 근사한다고 표현합니다.

 

이처럼 표본의 크기가 30 이상일 경우에 대해서는

중심극한정리(Central Limit Theorem)에 의해 증명되어,

어떤 분포라도 정규분포에 근사한다고 말할 수 있습니다.

 

표본의 크기가 30미만일 경우에도,

모평균을 추정하는 표본평균과, 

모분산을 추종하는 표본분산을 활용하여 분포를 형상화할 수 있습니다.

 

하지만 표본분산들이 이루는 분포는 표본의 크기에 따라 형상이 모두 다릅니다.

원 자료가 정규분포를 따른다고 하여도,

표본분산들의 분포는 정규분포를 따르지는 않는 것이 그 예입니다.

 

기존과 동일하게 통계초등학교의 키에 대한 자료를 생성하겠습니다.

정규분포를 따르며, 평균이 130cm이고 표준편차가 10cm인 자료를 2개씩 추출하여,

10000개의 표본을 생성하였습니다.

비록 2개씩 추출한 자료이나 표본마다 분산을 계산해 보도록 하겠습니다.

10000개의 표본분산을 모두 열거할 수는 없으나, 초기 표본의 분산은 다음과 같습니다.

2개씩 추출한 표본분산의 분포는 다음과 같습니다.

분명 정규분포를 따르는 자료이나, 분산의 분포는 전혀 정규분포가 아닙니다.

 

동일한 자료이나, 표본의 크기를 4로하여 자료를 생성하였습니다.

4개씩 추출한 표본분산의 분포는 다음과 같습니다.

8개씩 추출한 표본분산의 분포는 다음과 같습니다.

10개씩 추출한 표본분산의 분포는 다음과 같습니다.

20개씩 추출한 표본분산의 분포는 다음과 같습니다.

30개씩 추출한 표본분산의 분포는 다음과 같습니다.

해당자료의 표준편차가 10이므로, 분산은 100이 됩니다.

따라서 표본의 크기가 늘어날 수록,

표본분산의 평균인 100을 중심으로 분포가 형성되는 것을 확인할 수 있습니다. 

 

그러나 표본의 크기가 30미만인 표본분산이 이루는 분포의 분산은

표본의 크기에 따라 다르다는 사실 이외에는

분산을 파악하는 것이 쉽지 않습니다.

 

그래서 표본의 크기에 따라 달라지는

표본분산의 분산을 나타내는 분포가 필요하며,

카이제곱분포가 바로 그 분포입니다.

 

표본분산의 분포를 아는게 어떤 의미가 있는지 궁금해하실 수 있습니다.

모집단을 추론하기 위해서는 표본평균과 표본분산이 필요합니다.

통계적 검정을 위해서는 표본분산의 분포가 필요합니다.

 

보다 정확히 설명하면,

카이제곱분포는 표본분산의 분포를 활용하여,

모분산이 특별한 값을 갖는지 검정하거나,

범주형 변수 간의 연관성 여부를 검정하는데 주로 사용됩니다.

 

 

카이제곱분포가 실제 표본분산의 분포를 보여주는지 확인해 보도록 하겠습니다.

 

카이제곱분포의 개형을 알려주는 확률밀도함수는 다음과 같습니다.

카이제곱분포의 확률밀도함수는 n에 의해 개형을 달리합니다.

n은 통계학에서의 자유도이며, 자유도의 의미에 대해서는 표본분산 분포의 평균 편을 참조부탁드립니다.

 

표본분산분포에서 자유도 n은 표본의 크기에서 1을 뺀 수입니다.

표본을 2개씩 추출했으면 2에서 1을 빼서 자유도는 1이 됩니다.

표본을 5개씩 추출했으면 5에서 1을 빼서 자유도는 4가 됩니다.

 

카이제곱분포의 상세한 의미는 다음 시리즈에서 설명할 예정이며,

오늘은 카이제곱분포가 실제 표본분산의 분포를 보여주는지 여부만 파악해 보도록 하겠습니다.

 

자유도 1의 카이제곱분포입니다.

표본의 크기가 2(자유도 1)인 표본분산의 분포이며, 앞서 예제의 자료를 활용하여 생성하였습니다.

자유도 3의 카이제곱분포입니다.

 

표본의 크기가 4(자유도 3)인 표본분산의 분포이며, 앞서 예제의 자료를 활용하여 생성하였습니다.

자유도 9의 카이제곱분포입니다.

표본의 크기가 10(자유도 9)인 표본분산의 분포이며, 앞서 예제의 자료를 활용하여 생성하였습니다.

자유도 19의 카이제곱분포입니다.

표본의 크기가 20(자유도 19)인 표본분산의 분포이며, 앞서 예제의 자료를 활용하여 생성하였습니다.

자유도 29의 카이제곱분포입니다.

표본의 크기가 30(자유도 29)인 표본분산의 분포이며, 앞서 예제의 자료를 활용하여 생성하였습니다.

 

앞서 예제와 자유도에 따른 카이제곱분포가 정확하게 일치하지는 않습니다.

 

카이제곱분포는 표본분산의 분포의 개형을 파악하기 위해 사용하기 때문이며,

통계적인 표현으로는 카이제곱분포와 같다가 아니라 카이제곱분포를 따른다라고 표현하게 됩니다.

 

카이제곱분포가 모집단의 정확한 추정을 위해서가 아니라,

검정을 위해서 사용된다는 점 유의하시기 바랍니다.

 

다음은 시리즈의 최종편인 카이제곱분포입니다.

반응형