Gilbert's Tech Blog

[python/파이썬] 범주형 변수의 관측값 간 차이를 보여주는 카이제곱 적합성 검정

2023. 2. 26. 11:28

728x90

데이터를 살펴보면,

등수와 같이 순서를 나타내는 자료이거나,

키와 몸무게와 같이 연속적인 자료이거나,

몇 개의 범주로 구분된 자료인 경우가 많습니다.

순서형 변수간 분석에는 주로 켄달의 타우, 스피어만 순위상관계수가 활용되며,

연속형 변수간 분석에는 상관계수가 주로 활용되며,

범주형 변수간 분석에는 카이제곱 검정통계량을 활용합니다.

카이제곱 적합성검정(Chi-Square Goodness of Fit Test)은

독립성검정, 동일성검정과는 달리 하나의 범주만을 다루며,

하나의 범주 내에서 관측값 간에 통계적으로 유의미한 차이가 있는지를 검정합니다.

예제를 통해 카이제곱 적합성검정을

단계적으로 분석해 보도록 하겠습니다.

<카이제곱검정 1단계> 교차표 작성

통계초등학교에서 요일별 지각생 수를 조사하였으며,

결과는 다음과 같습니다.

카이제곱 검정통계량 계산시에 합계까지 포함되어 계산되지 않도록,

자료를 복사 한 후, 각 요일별로 기대되는 확률을 입력합니다.

요일별로 실제 비율은 모르므로

우선 모두 균등하게 입력하였습니다.

만약 요일별로 확률에 대한 자료가 있다면,

각 요일별로 입력도 가능합니다.

각 행의 합계를 구한 후,

교차표를 완성하면 다음과 같습니다.

<카이제곱검정 2단계> 귀무가설과 대립가설 설정

기존에는 요일별로 차이가 없다고 생각되었으나,

차이가 있다는 새로운 주장을 한다면,

기존의 주장과는 대립되므로 대립가설이라고 합니다.

만약 대립가설이 타당하지 않다면,

기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.

돌아갈 귀(歸)와 없을 무(無)의 귀무이며,

돌아가서 보니 변한 건 없다는 의미입니다.

예제의 귀무가설은 다음과 같습니다.

요일에 따른 지각생 수의 비율은 동일하다

예제의 대립가설은 다음과 같습니다.

요일에 따른 지각생 수의 비율은 동일하지 않다.

만약 요일별로 기대되는 확률이 다른 경우의

귀무가설은 다음과 같습니다.

월요일 = 0.3, 화요일 = 0.2, 수요일 = 0.2, 목요일 = 0.2, 금요일 = 0.1

이에 상응하는 대립가설은 다음과 같습니다.

귀무가설이 아니다.

<카이제곱검정 3단계> 유의수준 설정

일반적으로 발생할 확률이 5%도 채 되지 않는다면,

통계적으로는 발생할 확률이 없다고 판단합니다.

이때 기준이 되는 확률이 바로 유의수준입니다.

만약 요일에 따른 지각생 수의 비율이 동일하다고 가정한

카이제곱 검정통계량이 오른쪽 극단의 5% 이내의 구간에 포함된다면,

기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.

우리는 현재 요일에 따른 지각생 수의 비율이 같은지 여부를 판단하는 중이며,

비율이 동일하다고 가정한 귀무가설의 발생확률이 5%도 되지 않는다면,

기존가설을 받아들이지 않는 것이 타당하기 때문입니다.

<카이제곱검정 4단계> 검정통계량 설정

하나의 범주 내에서 관측값 간에 통계적으로 유의미한 차이가 있는지를 검정하고 있으므로,

검정통계량은 카이제곱 검정통계량을 사용합니다.

자유도에 따라 달라지는 카이제곱분포의 개형은 다음과 같습니다.

예제에서의 자유도 4는 요일 전체 수(5)에서 1을 빼서 구합니다.

자유도에 대해서는

다음 글을 참조 부탁드립니다.

https://gilber.tistory.com/39

[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균

카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열

gilber.tistory.com

카이제곱분포와 관련해서는

다음 글을 참조 부탁드립니다.

https://gilber.tistory.com/41

[python/파이썬] 카이제곱분포

gilber.tistory.com

오른쪽 극단의 5%에 해당하는 카이제곱 검정통계량 값은 다음과 같습니다.

카이제곱분포의 그래프로 표현하면 다음과 같습니다.

<카이제곱검정 5단계> 관측값 기대도수 계산

기대도수는 각 요일별로 기대되는 값을 뜻합니다.

만약 모든 요일의 비율이 동등하다면,

모든 요일의 기대도수는,

전체 자료수(100)에서 요일 수(5)를 나눈 20이 됩니다.

만약 요일별 비율이 다르다면,

각 요일의 기대도수는

각 요일별 비율과 전체 자료수의 곱이 됩니다.

<카이제곱검정 6단계> 검정통계량 계산

카이제곱 검정통계량은 다음과 같습니다.

파이썬을 활용해 카이제곱 검정통계량을 직접 계산하여도 결과는 같습니다.

cross_tabulation이 합계를 포함하고 있으므로,

합계 부분을 제외한 나머지 부분으로 계산합니다.

관측값과 기댓값만 따로 분리하면 다음과 같습니다.

카이제곱 검정통계량 계산결과는 동일합니다.

scipy의 chisquare를 활용해도 결과는 같습니다.

<카이제곱검정 7단계> 통계적 판단

우리는 기준으로 삼은 검정통계량이

9.487729036781154보다 큰 구간에 속한다면,

귀무가설을 받아들이지 않기로 하였습니다.

검정통계량이 25이고, 이는

9.487729036781154보다 큰 구간에 속하므로

요일에 따른 지각생 수의 비율은 동일하다는

귀무가설을 기각합니다.

가설의 기각여부는 귀무가설을 중심으로 표현하지만,

결론은 대립가설을 기준으로 표현합니다.

따라서 이번 예제의 결론은 다음과 같습니다.

유의수준 5%에서 검정결과,

요일에 따른 지각생 수의 비율은 동일하지 않다는

대립가설을 채택합니다.

즉, 통계적으로 요일별 지각생 수는 다릅니다.

'순서형, 연속형, 범주형 변수간 분석 > 범주형 변수간 분석' 카테고리의 다른 글

[python/파이썬] 두 범주형 변수간 차이를 보여주는 카이제곱 동일성 검정 (0)	2023.02.26
[python/파이썬] 두 범주형 변수간 연관성을 보여주는 카이제곱 독립성 검정 (0)	2023.02.26

Gilbert's Tech Blog

[python/파이썬] 범주형 변수의 관측값 간 차이를 보여주는 카이제곱 적합성 검정

'순서형, 연속형, 범주형 변수간 분석 > 범주형 변수간 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바